Can LLMs Make (Personalized) Access Control Decisions? Authors: Friederike Groschupp, Daniele Lain, Aritra Dhar, Lara Magdalena Lazier, Srdjan Čapkun | Published: 2025-11-25 LLMの安全機構の解除プライバシー評価プロンプトインジェクション 2025.11.25 文献データベース
Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.11.24 文献データベース
Black-Box Guardrail Reverse-engineering Attack Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang | Published: 2025-11-06 LLMの安全機構の解除プロンプトリーキング情報セキュリティ 2025.11.06 文献データベース
Death by a Thousand Prompts: Open Model Vulnerability Analysis Authors: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan, Adam Swanda | Published: 2025-11-05 LLMの安全機構の解除インダイレクトプロンプトインジェクション脅威モデリング 2025.11.05 文献データベース
Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks Authors: Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Shouling Ji | Published: 2025-10-20 LLMの安全機構の解除プロンプトインジェクション悪意のあるコンテンツ生成 2025.10.20 文献データベース
Proactive defense against LLM Jailbreak Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06 LLMの安全機構の解除プロンプトインジェクション防御手法の統合 2025.10.06 文献データベース
LLM Watermark Evasion via Bias Inversion Authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok | Published: 2025-09-27 | Updated: 2025-10-01 LLMの安全機構の解除モデルインバージョン統計的検定 2025.09.27 文献データベース
Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen | Published: 2025-09-26 | Updated: 2025-09-30 LLMの安全機構の解除自己注意メカニズム解釈可能性 2025.09.26 文献データベース
RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang | Published: 2025-09-25 LLMの安全機構の解除プロンプトインジェクション透かし設計 2025.09.25 文献データベース
bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He | Published: 2025-09-24 LLMの安全機構の解除プロンプトインジェクション生成モデル 2025.09.24 文献データベース