AIセキュリティポータルbot | ページ 149 | AIセキュリティポータル

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Authors: Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang | Published: 2024-10-03

バックドア攻撃

プロンプトインジェクション

2024.10.03 2025.04.03

文献データベース

Encryption-Friendly LLM Architecture

Authors: Donghwan Rho, Taeseong Kim, Minje Park, Jung Woo Kim, Hyunsik Chae, Jung Hee Cheon, Ernest K. Ryu | Published: 2024-10-03

アルゴリズム

実験的検証

2024.10.03 2025.04.03

文献データベース

Demonstration Attack against In-Context Learning for Code Intelligence

Authors: Yifei Ge, Weisong Sun, Yihang Lou, Chunrong Fang, Yiran Zhang, Yiming Li, Xiaofang Zhang, Yang Liu, Zhihong Zhao, Zhenyu Chen | Published: 2024-10-03

DICE評価手法

コード生成

悪意のあるデモ構築

2024.10.03 2025.04.03

文献データベース

Optimizing Adaptive Attacks against Content Watermarks for Language Models

Authors: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas | Published: 2024-10-03

LLMセキュリティ

ウォーターマーキング

プロンプトインジェクション

2024.10.03 2025.04.03

文献データベース

A Watermark for Black-Box Language Models

Authors: Dara Bahri, John Wieting, Dana Alon, Donald Metzler | Published: 2024-10-02

LLM性能評価

ウォーターマーキング

透かし評価

2024.10.02 2025.04.03

文献データベース

Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct

Authors: Christopher Ackerman, Nina Panickssery | Published: 2024-10-02 | Updated: 2025-01-25

AIによる出力の識別

プロンプティング戦略

自己認識モデル

2024.10.02 2025.04.03

文献データベース

Impact of White-Box Adversarial Attacks on Convolutional Neural Networks

Authors: Rakesh Podder, Sudipto Ghosh | Published: 2024-10-02

モデル性能評価

攻撃手法

敵対的サンプル

2024.10.02 2025.04.03

文献データベース

Adaptively Private Next-Token Prediction of Large Language Models

Authors: James Flemings, Meisam Razaviyayn, Murali Annavaram | Published: 2024-10-02

プライバシー保護

プライバシー保護手法

プライバシー手法

2024.10.02 2025.04.03

文献データベース

Social Media Authentication and Combating Deepfakes using Semi-fragile Invisible Image Watermarking

Authors: Aakash Varma Nadimpalli, Ajita Rattani | Published: 2024-10-02

ウォーターマーキング

透かしの耐久性

透かし評価

2024.10.02 2025.04.03

文献データベース

On Using Certified Training towards Empirical Robustness

Authors: Alessandro De Palma, Serge Durand, Zakaria Chihani, François Terrier, Caterina Urban | Published: 2024-10-02 | Updated: 2025-03-24

敵対的サンプル

正則化

2024.10.02 2025.04.03

文献データベース