プロンプトインジェクション

Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection

Authors: Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz | Published: 2023-02-23 | Updated: 2023-05-05
インダイレクトプロンプトインジェクション
プロンプトインジェクション
悪意のあるプロンプト

Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective

Authors: Baoyuan Wu, Zihao Zhu, Li Liu, Qingshan Liu, Zhaofeng He, Siwei Lyu | Published: 2023-02-19 | Updated: 2024-01-04
バックドア攻撃
プロンプトインジェクション
ポイズニング攻撃

Large Language Models for Code: Security Hardening and Adversarial Testing

Authors: Jingxuan He, Martin Vechev | Published: 2023-02-10 | Updated: 2024-08-16
セキュリティ保証
プロンプトインジェクション
脆弱性分析

CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models

Authors: Hossein Hajipour, Keno Hassler, Thorsten Holz, Lea Schönherr, Mario Fritz | Published: 2023-02-08 | Updated: 2023-10-23
コード生成
プロンプトインジェクション
脆弱性分析

A Watermark for Large Language Models

Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein | Published: 2023-01-24 | Updated: 2024-05-01
ウォーターマーキング
プロンプトインジェクション
検出手法の分析

Efficient Attack Detection in IoT Devices using Feature Engineering-Less Machine Learning

Authors: Arshiya Khan, Chase Cotton | Published: 2023-01-09
IoTデバイス識別
プロンプトインジェクション
悪意のあるパッケージ検出

IronForge: An Open, Secure, Fair, Decentralized Federated Learning

Authors: Guangsheng Yu, Xu Wang, Caijun Sun, Qin Wang, Ping Yu, Wei Ni, Ren Ping Liu, Xiwei Xu | Published: 2023-01-07
プライバシー保護技術
プロンプトインジェクション
報酬メカニズム設計

Constitutional AI: Harmlessness from AI Feedback

Authors: Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan | Published: 2022-12-15
アライメント
プロンプトインジェクション
性能評価

PhishClone: Measuring the Efficacy of Cloning Evasion Attacks

Authors: Arthur Wong, Alsharif Abuadbba, Mahathir Almashor, Salil Kanhere | Published: 2022-09-04
ウェブサイトクローン技術
フィッシング攻撃の検出率
プロンプトインジェクション

Generative Adversarial Networks and Image-Based Malware Classification

Authors: Huy Nguyen, Fabio Di Troia, Genya Ishigaki, Mark Stamp | Published: 2022-06-08
プロンプトインジェクション
マルウェア拡散手段
画像フォレンジック