プロンプトインジェクション

CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models

Authors: Hossein Hajipour, Keno Hassler, Thorsten Holz, Lea Schönherr, Mario Fritz | Published: 2023-02-08 | Updated: 2023-10-23
コード生成
プロンプトインジェクション
脆弱性分析

A Watermark for Large Language Models

Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein | Published: 2023-01-24 | Updated: 2024-05-01
ウォーターマーキング
プロンプトインジェクション
検出手法の分析

Efficient Attack Detection in IoT Devices using Feature Engineering-Less Machine Learning

Authors: Arshiya Khan, Chase Cotton | Published: 2023-01-09
IoTデバイス識別
プロンプトインジェクション
悪意のあるパッケージ検出

IronForge: An Open, Secure, Fair, Decentralized Federated Learning

Authors: Guangsheng Yu, Xu Wang, Caijun Sun, Qin Wang, Ping Yu, Wei Ni, Ren Ping Liu, Xiwei Xu | Published: 2023-01-07
プライバシー保護技術
プロンプトインジェクション
報酬メカニズム設計

Constitutional AI: Harmlessness from AI Feedback

Authors: Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan | Published: 2022-12-15
アライメント
プロンプトインジェクション
性能評価

PhishClone: Measuring the Efficacy of Cloning Evasion Attacks

Authors: Arthur Wong, Alsharif Abuadbba, Mahathir Almashor, Salil Kanhere | Published: 2022-09-04
ウェブサイトクローン技術
フィッシング攻撃の検出率
プロンプトインジェクション

Generative Adversarial Networks and Image-Based Malware Classification

Authors: Huy Nguyen, Fabio Di Troia, Genya Ishigaki, Mark Stamp | Published: 2022-06-08
プロンプトインジェクション
マルウェア拡散手段
画像フォレンジック

DNS based In-Browser Cryptojacking Detection

Authors: Rohit Kumar Sachan, Rachit Agarwal, Sandeep Kumar Shukla | Published: 2022-05-10
パフォーマンス評価
プロンプトインジェクション
攻撃検出

StratDef: Strategic Defense Against Adversarial Attacks in ML-based Malware Detection

Authors: Aqib Rashid, Jose Such | Published: 2022-02-15 | Updated: 2023-04-24
プロンプトインジェクション
モデル選択手法
防御手法

Examining Zero-Shot Vulnerability Repair with Large Language Models

Authors: Hammond Pearce, Benjamin Tan, Baleegh Ahmad, Ramesh Karri, Brendan Dolan-Gavitt | Published: 2021-12-03 | Updated: 2022-08-15
プログラム解釈グラフ
プロンプトインジェクション
自動脆弱性修復