NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models Authors: Chuhan Zhang, Ye Zhang, Bowen Shi, Yuyou Gan, Tianyu Du, Shouling Ji, Dazhan Deng, Yingcai Wu | Published: 2025-09-04 プロンプトインジェクション神経細胞と安全性防御メカニズム 2025.09.04 文献データベース
Privacy and Security Threat for OpenAI GPTs Authors: Wei Wenying, Zhao Kaifa, Xue Lei, Fan Ming | Published: 2025-06-04 LLMの安全機構の解除プライバシー問題防御メカニズム 2025.06.04 文献データベース
SuperPure: Efficient Purification of Localized and Distributed Adversarial Patches via Super-Resolution GAN Models Authors: Hossein Khalili, Seongbin Park, Venkat Bollapragada, Nader Sehatbakhsh | Published: 2025-05-22 敵対的学習計算複雑性防御メカニズム 2025.05.22 文献データベース
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval Authors: Taiye Chen, Zeming Wei, Ang Li, Yisen Wang | Published: 2025-05-21 RAG大規模言語モデル防御メカニズム 2025.05.21 文献データベース
Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses Authors: Xiaoxue Yang, Bozhidar Stevanoski, Matthieu Meeus, Yves-Alexandre de Montjoye | Published: 2025-05-21 アライメントプロンプトインジェクション防御メカニズム 2025.05.21 文献データベース
Model-agnostic clean-label backdoor mitigation in cybersecurity environments Authors: Giorgio Severi, Simona Boboila, John Holodnak, Kendra Kratkiewicz, Rauf Izmailov, Michael J. De Lucia, Alina Oprea | Published: 2024-07-11 | Updated: 2025-05-05 バックドアモデルの検知バックドア攻撃防御メカニズム 2024.07.11 文献データベース
Large Language Model Sentinel: LLM Agent for Adversarial Purification Authors: Guang Lin, Toshihisa Tanaka, Qibin Zhao | Published: 2024-05-24 | Updated: 2025-04-23 プロンプトの検証敵対的テキスト浄化防御メカニズム 2024.05.24 文献データベース
ModSec-AdvLearn: Countering Adversarial SQL Injections with Robust Machine Learning Authors: Giuseppe Floris, Christian Scano, Biagio Montaruli, Luca Demetrio, Andrea Valenza, Luca Compagna, Davide Ariu, Luca Piras, Davide Balzarotti, Battista Biggio | Published: 2023-08-09 | Updated: 2025-05-21 ロバスト性とプライバシーの関係敵対的サンプルの検知防御メカニズム 2023.08.09 文献データベース
Defend Data Poisoning Attacks on Voice Authentication Authors: Ke Li, Cameron Baird, Dan Lin | Published: 2022-09-09 | Updated: 2023-07-07 モデル設計敵対的攻撃検出防御メカニズム 2022.09.09 2025.04.03 文献データベース
Understanding Training-Data Leakage from Gradients in Neural Networks for Image Classification Authors: Cangxiong Chen, Neill D. F. Campbell | Published: 2021-11-19 トレーニングデータ抽出手法再構成攻撃防御メカニズム 2021.11.19 2025.04.03 文献データベース