大規模言語モデル

Towards Action Hijacking of Large Language Model-based Agent

Authors: Yuyang Zhang, Kangjie Chen, Jiaxin Gao, Ronghao Cui, Run Wang, Lina Wang, Tianwei Zhang | Published: 2024-12-14 | Updated: 2025-06-12

パフォーマンス評価

プロンプトリーキング

大規模言語モデル

2024.12.14

文献データベース

“Moralized” Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks

Authors: Libo Wang | Published: 2024-11-23 | Updated: 2025-03-20

プロンプトインジェクション

大規模言語モデル

2024.11.23 2025.04.03

文献データベース

JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit

Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24

ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いため

プロンプトインジェクション

大規模言語モデル

2024.11.17

文献データベース

Attention Tracker: Detecting Prompt Injection Attacks in LLMs

Authors: Kuo-Han Hung, Ching-Yun Ko, Ambrish Rawat, I-Hsin Chung, Winston H. Hsu, Pin-Yu Chen | Published: 2024-11-01 | Updated: 2025-04-23

インダイレクトプロンプトインジェクション

大規模言語モデル

注意メカニズム

2024.11.01

文献データベース

Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning

Authors: Arshiya Khan, Guannan Liu, Xing Gao | Published: 2024-09-27 | Updated: 2025-06-11

コード脆弱性修復

セキュリティコンテキスト統合

大規模言語モデル

2024.09.27

文献データベース

Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles

Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07

プロンプトインジェクション

大規模言語モデル

攻撃シナリオ分析

2024.08.20 2025.04.03

文献データベース

From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks

Authors: Zhexin Zhang, Junxiao Yang, Yida Lu, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang | Published: 2024-07-03 | Updated: 2025-05-20

プロンプトインジェクション

大規模言語モデル

法執行回避

2024.07.03

文献データベース

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models

Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li | Published: 2024-06-17 | Updated: 2025-06-09

LLMとの協力効果

プロンプトインジェクション

大規模言語モデル

2024.06.17

文献データベース

Cross-Modal Safety Alignment: Is textual unlearning all you need?

Authors: Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengyu Song | Published: 2024-05-27 | Updated: 2025-10-14

プライバシー保護技術

出力の有害度の算出

大規模言語モデル

2024.05.27

文献データベース

S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models

Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang | Published: 2024-05-23 | Updated: 2025-04-07

リスク分析手法

大規模言語モデル

安全性アライメント

2024.05.23

文献データベース