プロンプトインジェクション

PILLAR: an AI-Powered Privacy Threat Modeling Tool

Authors: Majid Mollaeefar, Andrea Bissoli, Silvio Ranise | Published: 2024-10-11
プライバシー保護
プライバシー保護手法
プロンプトインジェクション

APOLLO: A GPT-based tool to detect phishing emails and generate explanations that warn users

Authors: Giuseppe Desolda, Francesco Greco, Luca Viganò | Published: 2024-10-10
フィッシング検出
プロンプトインジェクション
ユーザー教育

Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy

Authors: Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou | Published: 2024-10-09
LLM性能評価
プロンプトインジェクション

Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems

Authors: Donghyun Lee, Mo Tiwari | Published: 2024-10-09
プロンプトインジェクション
攻撃手法
防御手法

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders

Authors: David Noever, Forrest McKee | Published: 2024-10-09
サイバーセキュリティ
プロンプトインジェクション
攻撃手法

SecAlign: Defending Against Prompt Injection with Preference Optimization

Authors: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, David Wagner, Chuan Guo | Published: 2024-10-07 | Updated: 2025-01-13
LLMセキュリティ
プロンプトインジェクション
防御手法

Enhancing Android Malware Detection: The Influence of ChatGPT on Decision-centric Task

Authors: Yao Li, Sen Fang, Tao Zhang, Haipeng Cai | Published: 2024-10-06
プロンプトインジェクション
マルウェア分類

Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models

Authors: Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng | Published: 2024-10-05
LLMセキュリティ
プロンプトインジェクション
攻撃手法

ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs

Authors: Lu Yan, Siyuan Cheng, Xuan Chen, Kaiyuan Zhang, Guangyu Shen, Zhuo Zhang, Xiangyu Zhang | Published: 2024-10-05
Negative Training
バックドア攻撃
プロンプトインジェクション

Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs

Authors: Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell | Published: 2024-10-04
LLMセキュリティ
プロンプトインジェクション
動的脆弱性管理