文献データベース

Let the Noise Speak: Harnessing Noise for a Unified Defense Against Adversarial and Backdoor Attacks

Authors: Md Hasan Shahriar, Ning Wang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou | Published: 2024-06-18 | Updated: 2025-04-14

モデルの頑健性保証

再構成攻撃

敵対的攻撃検出

2024.06.18

文献データベース

Data Plagiarism Index: Characterizing the Privacy Risk of Data-Copying in Tabular Generative Models

Authors: Joshua Ward, Chi-Hua Wang, Guang Cheng | Published: 2024-06-18

データプライバシー評価

プライバシー保護手法

メンバーシップ推論

2024.06.18 2025.04.03

文献データベース

Can Go AIs be adversarially robust?

Authors: Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave | Published: 2024-06-18 | Updated: 2025-01-14

モデル性能評価

攻撃手法

透かし評価

2024.06.18 2025.04.03

文献データベース

UIFV: Data Reconstruction Attack in Vertical Federated Learning

Authors: Jirui Yang, Peng Chen, Zhihui Lu, Qiang Duan, Yubing Bao | Published: 2024-06-18 | Updated: 2025-01-14

データプライバシー評価

フレームワーク

攻撃手法

2024.06.18 2025.04.03

文献データベース

Defending Against Social Engineering Attacks in the Age of LLMs

Authors: Lin Ai, Tharindu Kumarage, Amrita Bhattacharjee, Zizhou Liu, Zheng Hui, Michael Davinroy, James Cook, Laura Cassani, Kirill Trapeznikov, Matthias Kirchner, Arslan Basharat, Anthony Hoogs, Joshua Garland, Huan Liu, Julia Hirschberg | Published: 2024-06-18 | Updated: 2024-10-11

インダイレクトプロンプトインジェクション

サイバー脅威

ソーシャルエンジニアリング攻撃

2024.06.18 2025.04.03

文献データベース

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

Authors: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran | Published: 2024-06-18 | Updated: 2025-03-27

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.06.18 2025.04.03

文献データベース

Is poisoning a real threat to LLM alignment? Maybe more so than you think

Authors: Pankayaraj Pathmanathan, Souradip Chakraborty, Xiangyu Liu, Yongyuan Liang, Furong Huang | Published: 2024-06-17 | Updated: 2025-06-09

トレーニング手法

バックドア攻撃手法

毒データの検知

2024.06.17

文献データベース

Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models

Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li | Published: 2024-06-17 | Updated: 2025-06-09

LLMとの協力効果

プロンプトインジェクション

大規模言語モデル

2024.06.17

文献データベース

FullCert: Deterministic End-to-End Certification for Training and Inference of Neural Networks

Authors: Tobias Lorenz, Marta Kwiatkowska, Mario Fritz | Published: 2024-06-17 | Updated: 2024-09-11

セキュリティ保証

収束分析

最適化問題

2024.06.17 2025.04.03

文献データベース

ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates

Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Bill Yuchen Lin, Radha Poovendran | Published: 2024-06-17 | Updated: 2025-01-07

LLMセキュリティ

プロンプトインジェクション

脆弱性管理

2024.06.17 2025.04.03

文献データベース