AIセキュリティポータルbot

Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection

Authors: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin | Published: 2023-07-31 | Updated: 2024-04-03
LLMセキュリティ
システムプロンプト生成
プロンプトインジェクション

Confidential Computing across Edge-to-Cloud for Machine Learning: A Survey Study

Authors: SM Zobaed, Mohsen Amini Salehi | Published: 2023-07-31
TEE実装
ソフトウェアセキュリティ
データ管理システム

Theoretically Principled Trade-off for Stateful Defenses against Query-Based Black-Box Attacks

Authors: Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash | Published: 2023-07-30
サイバーセキュリティ
敵対的スペクトル攻撃検出
透かしの耐久性

On Neural Network approximation of ideal adversarial attack and convergence of adversarial training

Authors: Rajdeep Haldar, Qifan Song | Published: 2023-07-30
収束特性
敵対的攻撃
最適化手法

Adversarial training for tabular data with attack propagation

Authors: Tiago Leon Melo, João Bravo, Marco O. P. Sampaio, Paolo Romano, Hugo Ferreira, João Tiago Ascensão, Pedro Bizarro | Published: 2023-07-28
敵対的サンプル
敵対的スペクトル攻撃検出
時間に関連する特徴

Robust Distortion-free Watermarks for Language Models

Authors: Rohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang | Published: 2023-07-28 | Updated: 2024-06-06
テキストの摂動手法
生成AI向け電子透かし
統計的仮説検定

Universal and Transferable Adversarial Attacks on Aligned Language Models

Authors: Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, Matt Fredrikson | Published: 2023-07-27 | Updated: 2023-12-20
LLMセキュリティ
プロンプトインジェクション
不適切コンテンツ生成

Backdoor Attacks for In-Context Learning with Language Models

Authors: Nikhil Kandpal, Matthew Jagielski, Florian Tramèr, Nicholas Carlini | Published: 2023-07-27
LLMセキュリティ
バックドア攻撃
プロンプトインジェクション

Decoding the Secrets of Machine Learning in Malware Classification: A Deep Dive into Datasets, Feature Extraction, and Model Performance

Authors: Savino Dambra, Yufei Han, Simone Aonzo, Platon Kotzias, Antonino Vitale, Juan Caballero, Davide Balzarotti, Leyla Bilge | Published: 2023-07-27
ファイル分析手法
特徴選択手法
限られたサンプルでのマルウェア検出

Unveiling Security, Privacy, and Ethical Concerns of ChatGPT

Authors: Xiaodong Wu, Ran Duan, Jianbing Ni | Published: 2023-07-26
LLMセキュリティ
プロンプトインジェクション
不適切コンテンツ生成