プロンプトインジェクション

Feint and Attack: Attention-Based Strategies for Jailbreaking and Protecting LLMs

Authors: Rui Pu, Chaozhuo Li, Rui Ha, Zejian Chen, Litian Zhang, Zheng Liu, Lirong Qiu, Zaisheng Ye | Published: 2024-10-18 | Updated: 2025-07-08
LLMの安全機構の解除
プロンプトインジェクション
プロンプトの検証

Denial-of-Service Poisoning Attacks against Large Language Models

Authors: Kuofeng Gao, Tianyu Pang, Chao Du, Yong Yang, Shu-Tao Xia, Min Lin | Published: 2024-10-14
プロンプトインジェクション
モデルDoS
リソース不足の課題

On Calibration of LLM-based Guard Models for Reliable Content Moderation

Authors: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang | Published: 2024-10-14
LLM性能評価
コンテンツモデレーション
プロンプトインジェクション

Can LLMs be Scammed? A Baseline Measurement Study

Authors: Udari Madhushani Sehwag, Kelly Patel, Francesca Mosca, Vineeth Ravi, Jessica Staddon | Published: 2024-10-14
LLM性能評価
プロンプトインジェクション
評価手法

Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution

Authors: Ankita Sinha, Wendi Cui, Kamalika Das, Jiaxin Zhang | Published: 2024-10-12
プロンプトインジェクション
マルチオブジェクティブプロンプト最適化

Can a large language model be a gaslighter?

Authors: Wei Li, Luyao Zhu, Yang Song, Ruixi Lin, Rui Mao, Yang You | Published: 2024-10-11
プロンプトインジェクション
安全性アライメント
攻撃手法

F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents

Authors: Yupeng Ren | Published: 2024-10-11 | Updated: 2024-10-14
プロンプトインジェクション
攻撃の評価
攻撃手法

PILLAR: an AI-Powered Privacy Threat Modeling Tool

Authors: Majid Mollaeefar, Andrea Bissoli, Silvio Ranise | Published: 2024-10-11
プライバシー保護
プライバシー保護手法
プロンプトインジェクション

APOLLO: A GPT-based tool to detect phishing emails and generate explanations that warn users

Authors: Giuseppe Desolda, Francesco Greco, Luca Viganò | Published: 2024-10-10
フィッシング検出
プロンプトインジェクション
ユーザー教育

Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy

Authors: Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou | Published: 2024-10-09
LLM性能評価
プロンプトインジェクション