On the Feasibility of Hijacking MLLMs’ Decision Chain via One Perturbation Authors: Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He | Published: 2025-11-25 堅牢性向上手法画像処理適応型敵対的訓練 2025.11.25 文献データベース
Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24 プロンプトインジェクション大規模言語モデル悪意のあるプロンプト 2025.11.24 文献データベース
Can LLMs Threaten Human Survival? Benchmarking Potential Existential Threats from LLMs via Prefix Completion Authors: Yu Cui, Yifei Liu, Hang Fu, Sicheng Pan, Haibin Zhang, Cong Zuo, Licheng Wang | Published: 2025-11-24 インダイレクトプロンプトインジェクションプロンプトインジェクションリスク評価手法 2025.11.24 文献データベース
Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.11.24 文献データベース
LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models Authors: Muhammad Usman Shahid, Chuadhry Mujeeb Ahmed, Rajiv Ranjan | Published: 2025-11-24 サイバーセキュリティの自動化プロンプトリーキングリスク評価手法 2025.11.24 文献データベース
Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24 倫理的考慮大規模言語モデル悪意のあるプロンプト 2025.11.24 文献データベース
RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation Authors: Benyamin Tafreshian | Published: 2025-11-24 インダイレクトプロンプトインジェクションプロンプトリーキング悪意のあるプロンプト 2025.11.24 文献データベース
Evaluation of Real-Time Mitigation Techniques for Cyber Security in IEC 61850 / IEC 62351 Substations Authors: Akila Herath, Chen-Ching Liu, Junho Hong, Kuchan Park | Published: 2025-11-24 DoS対策異常検知アルゴリズム透かし技術 2025.11.24 文献データベース
Subtract the Corruption: Training-Data-Free Corrective Machine Unlearning using Task Arithmetic Authors: Mostafa Mozafari, Farooq Ahmad Wani, Maria Sofia Bucarelli, Fabrizio Silvestri | Published: 2025-11-24 トリガーの検知バックドアモデルの検知適応型再訓練メカニズム 2025.11.24 文献データベース
Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun | Published: 2025-11-20 プロンプトリーキング堅牢性向上手法生成AI向け電子透かし 2025.11.20 文献データベース