Refusing Safe Prompts for Multi-modal Large Language Models Authors: Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong | Published: 2024-07-12 | Updated: 2024-09-05 LLMセキュリティプロンプトインジェクション評価手法 2024.07.12 2025.04.03 文献データベース
MALT Powers Up Adversarial Attacks Authors: Odelia Melamed, Gilad Yehudai, Adi Shamir | Published: 2024-07-02 メソスコピック線形性攻撃手法評価手法 2024.07.02 2025.04.03 文献データベース
Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness Authors: Vaclav Voracek | Published: 2024-06-25 | Updated: 2025-01-20 信頼評価モジュール評価手法透かし評価 2024.06.25 2025.04.03 文献データベース
The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI Authors: Christopher Burger, Charles Walter, Thai Le | Published: 2024-06-22 | Updated: 2025-01-17 敵対的サンプル評価手法類似性測定 2024.06.22 2025.04.03 文献データベース
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models Authors: Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang | Published: 2024-06-11 | Updated: 2024-06-13 LLM性能評価データセット生成評価手法 2024.06.11 2025.04.03 文献データベース
Ollabench: Evaluating LLMs’ Reasoning for Human-centric Interdependent Cybersecurity Authors: Tam n. Nguyen | Published: 2024-06-11 LLM性能評価サイバーセキュリティ評価手法 2024.06.11 2025.04.03 文献データベース
Robust Distribution Learning with Local and Global Adversarial Corruptions Authors: Sloan Nietert, Ziv Goldfeld, Soroosh Shafiee | Published: 2024-06-10 | Updated: 2024-06-24 ウォーターマーキング損失関数評価手法 2024.06.10 2025.04.03 文献データベース
Auditing Differential Privacy Guarantees Using Density Estimation Authors: Antti Koskela, Jafar Mohammadi | Published: 2024-06-07 | Updated: 2024-10-11 プライバシー保護手法評価手法透かし評価 2024.06.07 2025.04.03 文献データベース
ACE: A Model Poisoning Attack on Contribution Evaluation Methods in Federated Learning Authors: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bo Li, Radha Poovendran | Published: 2024-05-31 | Updated: 2024-06-05 ポイズニング評価手法防御手法 2024.05.31 2025.04.03 文献データベース
Revisit, Extend, and Enhance Hessian-Free Influence Functions Authors: Ziao Yang, Han Yue, Jian Chen, Hongfu Liu | Published: 2024-05-25 | Updated: 2024-10-20 ポイズニングモデル性能評価評価手法 2024.05.25 2025.04.03 文献データベース