ロバスト性分析

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

Authors: Hoagy Cunningham, Jerry Wei, Zihan Wang, Andrew Persic, Alwin Peng, Jordan Abderrachid, Raj Agarwal, Bobby Chen, Austin Cohen, Andy Dau, Alek Dimitriev, Rob Gilson, Logan Howard, Yijin Hua, Jared Kaplan, Jan Leike, Mu Lin, Christopher Liu, Vladimir Mikulik, Rohit Mittapalli, Clare O'Hara, Jin Pan, Nikhil Saxena, Alex Silverstein, Yue Song, Xunjie Yu, Giulio Zhou, Ethan Perez, Mrinank Sharma | Published: 2026-01-08

プロンプトインジェクション

ロバスト性分析

深層ネットワークの堅牢性

2026.01.08

文献データベース

Impact of Positional Encoding: Clean and Adversarial Rademacher Complexity for Transformers under In-Context Regression

Authors: Weiyi He, Yue Xing | Published: 2025-12-10

エラー解析

ロバスト性分析

一般化境界

2025.12.10

文献データベース

Evaluating the Robustness of Adversarial Defenses in Malware Detection Systems

Authors: Mostafa Jafari, Alireza Shameli-Sendi | Published: 2025-05-14

ロバスト性分析

攻撃検出手法

敵対的学習

2025.05.14

文献データベース

SimMark: A Robust Sentence-Level Similarity-Based Watermarking Algorithm for Large Language Models

Authors: Amirhossein Dabiriaghdam, Lele Wang | Published: 2025-02-05 | Updated: 2025-09-11

ロバスト性分析

生成AI向け電子透かし

透かし設計

2025.02.05

文献データベース

PatchGuard: A Provably Robust Defense against Adversarial Patches via Small Receptive Fields and Masking

Authors: Chong Xiang, Arjun Nitin Bhagoji, Vikash Sehwag, Prateek Mittal | Published: 2020-05-17 | Updated: 2021-03-31

ロバスト性分析

敵対的攻撃

特徴抽出手法

2020.05.17 2025.04.03

文献データベース

Improved Image Wasserstein Attacks and Defenses

Authors: Edward J. Hu, Adith Swaminathan, Hadi Salman, Greg Yang | Published: 2020-04-26 | Updated: 2023-05-09

ロバスト性分析

敵対的サンプル

敵対的攻撃手法

2020.04.26 2025.04.03

文献データベース

Systematic Evaluation of Backdoor Data Poisoning Attacks on Image Classifiers

Authors: Loc Truong, Chace Jones, Brian Hutchinson, Andrew August, Brenda Praggastis, Robert Jasper, Nicole Nichols, Aaron Tuor | Published: 2020-04-24

バックドア攻撃

ロバスト性分析

正則化

2020.04.24 2025.04.03

文献データベース

How to compare adversarial robustness of classifiers from a global perspective

Authors: Niklas Risse, Christina Göpfert, Jan Philip Göpfert | Published: 2020-04-22 | Updated: 2020-10-15

ポイズニング

ロバスト性分析

評価手法

2020.04.22 2025.04.03

文献データベース

Differential 3D Facial Recognition: Adding 3D to Your State-of-the-Art 2D Method

Authors: J. Matias Di Martino, Fernando Suzacq, Mauricio Delbracio, Qiang Qiu, Guillermo Sapiro | Published: 2020-04-03

3D特徴抽出

ロバスト性分析

顔認識

2020.04.03 2025.04.03

文献データベース

A simple way to make neural networks robust against diverse image corruptions

Authors: Evgenia Rusak, Lukas Schott, Roland S. Zimmermann, Julian Bitterwolf, Oliver Bringmann, Matthias Bethge, Wieland Brendel | Published: 2020-01-16 | Updated: 2020-07-22

ロバスト性分析

収束性分析

敵対的学習

2020.01.16 2025.04.03

文献データベース