Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows Authors: Adrian Pekar, Richard Jozsa | Published: 2024-07-03 | Updated: 2025-06-30 トラフィック分類侵入検知システム性能評価指標 2024.07.03 文献データベース
From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks Authors: Zhexin Zhang, Junxiao Yang, Yida Lu, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang | Published: 2024-07-03 | Updated: 2025-05-20 プロンプトインジェクション大規模言語モデル法執行回避 2024.07.03 文献データベース
MALT Powers Up Adversarial Attacks Authors: Odelia Melamed, Gilad Yehudai, Adi Shamir | Published: 2024-07-02 メソスコピック線形性攻撃手法評価手法 2024.07.02 2025.04.03 文献データベース
Attack-Aware Noise Calibration for Differential Privacy Authors: Bogdan Kulynych, Juan Felipe Gomez, Georgios Kaissis, Flavio du Pin Calmon, Carmela Troncoso | Published: 2024-07-02 | Updated: 2024-11-07 プライバシー保護プライバシー保護手法計算効率 2024.07.02 2025.04.03 文献データベース
On Discrete Prompt Optimization for Diffusion Models Authors: Ruochen Wang, Ting Liu, Cho-Jui Hsieh, Boqing Gong | Published: 2024-06-27 ウォーターマーキングプロンプトインジェクションプロンプトエンジニアリング 2024.06.27 2025.04.03 文献データベース
Diffusion-based Adversarial Purification for Intrusion Detection Authors: Mohamed Amine Merzouk, Erwan Beurier, Reda Yaich, Nora Boulahia-Cuppens, Frédéric Cuppens | Published: 2024-06-25 データ前処理敵対的訓練自動化された侵入検知システム 2024.06.25 2025.04.03 文献データベース
Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness Authors: Vaclav Voracek | Published: 2024-06-25 | Updated: 2025-01-20 信頼評価モジュール評価手法透かし評価 2024.06.25 2025.04.03 文献データベース
The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI Authors: Christopher Burger, Charles Walter, Thai Le | Published: 2024-06-22 | Updated: 2025-01-17 敵対的サンプル評価手法類似性測定 2024.06.22 2025.04.03 文献データベース
Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning Authors: Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang | Published: 2024-06-20 | Updated: 2024-08-16 ウォーターマーキングデータ選択戦略プライバシー保護手法 2024.06.20 2025.04.03 文献データベース
Let the Noise Speak: Harnessing Noise for a Unified Defense Against Adversarial and Backdoor Attacks Authors: Md Hasan Shahriar, Ning Wang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou | Published: 2024-06-18 | Updated: 2025-04-14 モデルの頑健性保証再構成攻撃敵対的攻撃検出 2024.06.18 文献データベース