プロンプトインジェクション

h4rm3l: A language for Composable Jailbreak Attack Synthesis

Authors: Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning | Published: 2024-08-09 | Updated: 2025-03-25
ウォーターマーキング
プロンプトインジェクション
プロンプトエンジニアリング

Towards Explainable Network Intrusion Detection using Large Language Models

Authors: Paul R. B. Houssel, Priyanka Singh, Siamak Layeghy, Marius Portmann | Published: 2024-08-08
LLM性能評価
ネットワーク脅威検出
プロンプトインジェクション

EnJa: Ensemble Jailbreak on Large Language Models

Authors: Jiahao Zhang, Zilong Wang, Ruofan Wang, Xingjun Ma, Yu-Gang Jiang | Published: 2024-08-07
プロンプトインジェクション
攻撃手法
評価手法

Compromising Embodied Agents with Contextual Backdoor Attacks

Authors: Aishan Liu, Yuguang Zhou, Xianglong Liu, Tianyuan Zhang, Siyuan Liang, Jiakai Wang, Yanjun Pu, Tianlin Li, Junqi Zhang, Wenbo Zhou, Qing Guo, Dacheng Tao | Published: 2024-08-06
バックドア攻撃
プロンプトインジェクション

Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning

Authors: Dmitri Iourovitski, Sanat Sharma, Rakshak Talwar | Published: 2024-08-06
LLM性能評価
プロンプトインジェクション
モデル性能評価

Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?

Authors: Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad | Published: 2024-08-05
プロンプトインジェクション
強化学習
敵対的サンプル

Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models

Authors: Zi Liang, Haibo Hu, Qingqing Ye, Yaxin Xiao, Haoyang Li | Published: 2024-08-05 | Updated: 2025-02-12
プロンプトインジェクション
プロンプトリーキング
モデル評価

Automated Phishing Detection Using URLs and Webpages

Authors: Huilin Wang, Bryan Hooi | Published: 2024-08-03 | Updated: 2024-08-16
フィッシング検出
ブランド認識問題
プロンプトインジェクション

MCGMark: An Encodable and Robust Online Watermark for LLM-Generated Malicious Code

Authors: Kaiwen Ning, Jiachi Chen, Qingyuan Zhong, Tao Zhang, Yanlin Wang, Wei Li, Yu Zhang, Weizhe Zhang, Zibin Zheng | Published: 2024-08-02
コード生成
プロンプトインジェクション
透かしの耐久性

Jailbreaking Text-to-Image Models with LLM-Based Agents

Authors: Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo | Published: 2024-08-01 | Updated: 2024-09-09
LLMセキュリティ
プロンプトインジェクション
モデル性能評価