プロンプトインジェクション

Private prediction for large-scale synthetic text generation

Authors: Kareem Amin, Alex Bie, Weiwei Kong, Alexey Kurakin, Natalia Ponomareva, Umar Syed, Andreas Terzis, Sergei Vassilvitskii | Published: 2024-07-16 | Updated: 2024-10-09

ウォーターマーキング

プライバシー保護手法

プロンプトインジェクション

2024.07.16 2025.04.03

文献データベース

Hey, That’s My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique

Authors: Mark Russinovich, Ahmed Salem | Published: 2024-07-15 | Updated: 2025-06-12

インダイレクトプロンプトインジェクション

フィンガープリンティング手法

プロンプトインジェクション

2024.07.15

文献データベース

TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models

Authors: Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren, Chun Chen | Published: 2024-07-12 | Updated: 2025-01-16

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.07.12 2025.04.03

文献データベース

Refusing Safe Prompts for Multi-modal Large Language Models

Authors: Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong | Published: 2024-07-12 | Updated: 2024-09-05

LLMセキュリティ

プロンプトインジェクション

評価手法

2024.07.12 2025.04.03

文献データベース

ProxyGPT: Enabling User Anonymity in LLM Chatbots via (Un)Trustworthy Volunteer Proxies

Authors: Dzung Pham, Jade Sheffey, Chau Minh Pham, Amir Houmansadr | Published: 2024-07-11 | Updated: 2025-06-11

プライバシー保護技術

プロンプトインジェクション

プロンプトリーキング

2024.07.11

文献データベース

From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks

Authors: Zhexin Zhang, Junxiao Yang, Yida Lu, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang | Published: 2024-07-03 | Updated: 2025-05-20

プロンプトインジェクション

大規模言語モデル

法執行回避

2024.07.03

文献データベース

On Discrete Prompt Optimization for Diffusion Models

Authors: Ruochen Wang, Ting Liu, Cho-Jui Hsieh, Boqing Gong | Published: 2024-06-27

ウォーターマーキング

プロンプトインジェクション

プロンプトエンジニアリング

2024.06.27 2025.04.03

文献データベース

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

Authors: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran | Published: 2024-06-18 | Updated: 2025-03-27

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.06.18 2025.04.03

文献データベース

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models

Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li | Published: 2024-06-17 | Updated: 2025-06-09

LLMとの協力効果

プロンプトインジェクション

大規模言語モデル

2024.06.17

文献データベース

ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates

Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Bill Yuchen Lin, Radha Poovendran | Published: 2024-06-17 | Updated: 2025-01-07

LLMセキュリティ

プロンプトインジェクション

脆弱性管理

2024.06.17 2025.04.03

文献データベース