プロンプトインジェクション

Constitutional AI: Harmlessness from AI Feedback

Authors: Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan | Published: 2022-12-15
アライメント
プロンプトインジェクション
性能評価

PhishClone: Measuring the Efficacy of Cloning Evasion Attacks

Authors: Arthur Wong, Alsharif Abuadbba, Mahathir Almashor, Salil Kanhere | Published: 2022-09-04
ウェブサイトクローン技術
フィッシング攻撃の検出率
プロンプトインジェクション

Generative Adversarial Networks and Image-Based Malware Classification

Authors: Huy Nguyen, Fabio Di Troia, Genya Ishigaki, Mark Stamp | Published: 2022-06-08
プロンプトインジェクション
マルウェア拡散手段
画像フォレンジック

DNS based In-Browser Cryptojacking Detection

Authors: Rohit Kumar Sachan, Rachit Agarwal, Sandeep Kumar Shukla | Published: 2022-05-10
パフォーマンス評価
プロンプトインジェクション
攻撃検出

StratDef: Strategic Defense Against Adversarial Attacks in ML-based Malware Detection

Authors: Aqib Rashid, Jose Such | Published: 2022-02-15 | Updated: 2023-04-24
プロンプトインジェクション
モデル選択手法
防御手法

Examining Zero-Shot Vulnerability Repair with Large Language Models

Authors: Hammond Pearce, Benjamin Tan, Baleegh Ahmad, Ramesh Karri, Brendan Dolan-Gavitt | Published: 2021-12-03 | Updated: 2022-08-15
プログラム解釈グラフ
プロンプトインジェクション
自動脆弱性修復

Single-Shot Black-Box Adversarial Attacks Against Malware Detectors: A Causal Language Model Approach

Authors: James Lee Hu, Mohammadreza Ebrahimi, Hsinchun Chen | Published: 2021-12-03
プロンプトインジェクション
マルウェア検出手法
敵対的攻撃手法

Teacher Model Fingerprinting Attacks Against Transfer Learning

Authors: Yufei Chen, Chao Shen, Cong Wang, Yang Zhang | Published: 2021-06-23 | Updated: 2022-06-23
ウォーターマーキング
データ収集
プロンプトインジェクション

Bad Characters: Imperceptible NLP Attacks

Authors: Nicholas Boucher, Ilia Shumailov, Ross Anderson, Nicolas Papernot | Published: 2021-06-18 | Updated: 2021-12-11
サイバー攻撃
プロンプトインジェクション
機械学習の応用

Advanced Evasion Attacks and Mitigations on Practical ML-Based Phishing Website Classifiers

Authors: Yusi Lei, Sen Chen, Lingling Fan, Fu Song, Yang Liu | Published: 2020-04-15
プロンプトインジェクション
攻撃タイプ
防御手法