JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24 ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いためプロンプトインジェクション大規模言語モデル 2024.11.17 文献データベース
Attention Tracker: Detecting Prompt Injection Attacks in LLMs Authors: Kuo-Han Hung, Ching-Yun Ko, Ambrish Rawat, I-Hsin Chung, Winston H. Hsu, Pin-Yu Chen | Published: 2024-11-01 | Updated: 2025-04-23 インダイレクトプロンプトインジェクション大規模言語モデル注意メカニズム 2024.11.01 文献データベース
Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning Authors: Arshiya Khan, Guannan Liu, Xing Gao | Published: 2024-09-27 | Updated: 2025-06-11 コード脆弱性修復セキュリティコンテキスト統合大規模言語モデル 2024.09.27 文献データベース
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07 プロンプトインジェクション大規模言語モデル攻撃シナリオ分析 2024.08.20 2025.04.03 文献データベース
From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks Authors: Zhexin Zhang, Junxiao Yang, Yida Lu, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang | Published: 2024-07-03 | Updated: 2025-05-20 プロンプトインジェクション大規模言語モデル法執行回避 2024.07.03 文献データベース
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li | Published: 2024-06-17 | Updated: 2025-06-09 LLMとの協力効果プロンプトインジェクション大規模言語モデル 2024.06.17 文献データベース
Cross-Modal Safety Alignment: Is textual unlearning all you need? Authors: Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengyu Song | Published: 2024-05-27 | Updated: 2025-10-14 プライバシー保護技術出力の有害度の算出大規模言語モデル 2024.05.27 文献データベース
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang | Published: 2024-05-23 | Updated: 2025-04-07 リスク分析手法大規模言語モデル安全性アライメント 2024.05.23 文献データベース
Watermark Stealing in Large Language Models Authors: Nikola Jovanović, Robin Staab, Martin Vechev | Published: 2024-02-29 | Updated: 2024-06-24 モデル抽出攻撃大規模言語モデル攻撃の分類 2024.02.29 2025.04.03 文献データベース
Measuring Implicit Bias in Explicitly Unbiased Large Language Models Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths | Published: 2024-02-06 | Updated: 2024-05-23 AIによる出力のバイアスの検出アルゴリズムの公平性大規模言語モデル 2024.02.06 2025.04.03 文献データベース