プロンプトインジェクション

The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs

Authors: Bocheng Chen, Hanqing Guo, Guangjing Wang, Yuanda Wang, Qiben Yan | Published: 2024-09-01

LLM性能評価

プロンプトインジェクション

ポイズニング

2024.09.01 2025.04.03

文献データベース

Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models

Authors: Bang An, Sicheng Zhu, Ruiyi Zhang, Michael-Andrei Panaitescu-Liess, Yuancheng Xu, Furong Huang | Published: 2024-09-01

LLM性能評価

コンテンツモデレーション

プロンプトインジェクション

2024.09.01 2025.04.03

文献データベース

LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet

Authors: Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside, Hugh Zhang, Zifan Wang, Cristina Menghini, Summer Yue | Published: 2024-08-27 | Updated: 2024-09-04

プロンプトインジェクション

ユーザー教育

攻撃手法

2024.08.27 2025.04.03

文献データベース

Is Generative AI the Next Tactical Cyber Weapon For Threat Actors? Unforeseen Implications of AI Generated Cyber Attacks

Authors: Yusuf Usman, Aadesh Upadhyay, Prashnna Gyawali, Robin Chataut | Published: 2024-08-23

サイバーセキュリティ

プロンプトインジェクション

攻撃手法

2024.08.23 2025.04.03

文献データベース

LLM-PBE: Assessing Data Privacy in Large Language Models

Authors: Qinbin Li, Junyuan Hong, Chulin Xie, Jeffrey Tan, Rachel Xin, Junyi Hou, Xavier Yin, Zhun Wang, Dan Hendrycks, Zhangyang Wang, Bo Li, Bingsheng He, Dawn Song | Published: 2024-08-23 | Updated: 2024-09-06

LLMセキュリティ

プライバシー保護手法

プロンプトインジェクション

2024.08.23 2025.04.03

文献データベース

Efficient Detection of Toxic Prompts in Large Language Models

Authors: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu | Published: 2024-08-21 | Updated: 2024-09-14

コンテンツモデレーション

プロンプトインジェクション

モデル性能評価

2024.08.21 2025.04.03

文献データベース

EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models

Authors: Chongwen Zhao, Zhihao Dou, Kaizhu Huang | Published: 2024-08-21

LLMセキュリティ

プロンプトインジェクション

防御手法

2024.08.21 2025.04.03

文献データベース

Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles

Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07

プロンプトインジェクション

大規模言語モデル

攻撃シナリオ分析

2024.08.20 2025.04.03

文献データベース

Security Attacks on LLM-based Code Completion Tools

Authors: Wen Cheng, Ke Sun, Xinyu Zhang, Wei Wang | Published: 2024-08-20 | Updated: 2025-01-02

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.08.20 2025.04.03

文献データベース

LeCov: Multi-level Testing Criteria for Large Language Models

Authors: Xuan Xie, Jiayang Song, Yuheng Huang, Da Song, Fuyuan Zhang, Felix Juefei-Xu, Lei Ma | Published: 2024-08-20

LLM性能評価

テスト優先順位付け

プロンプトインジェクション

2024.08.20 2025.04.03

文献データベース