AIセキュリティポータルbot

Evaluating the Robustness of a Production Malware Detection System to Transferable Adversarial Attacks

Authors: Milad Nasr, Yanick Fratantonio, Luca Invernizzi, Ange Albertini, Loua Farah, Alex Petit-Bianco, Andreas Terzis, Kurt Thomas, Elie Bursztein, Nicholas Carlini | Published: 2025-10-02
オンラインマルウェア検出
敵対的学習
構造的攻撃

Position: Privacy Is Not Just Memorization!

Authors: Niloofar Mireshghallah, Tianshi Li | Published: 2025-10-02
インダイレクトプロンプトインジェクション
プライバシー保護機械学習
プライバシー分類

POLAR: Automating Cyber Threat Prioritization through LLM-Powered Assessment

Authors: Luoxi Tang, Yuqiao Meng, Ankita Patra, Weicheng Ma, Muchao Ye, Zhaohan Xi | Published: 2025-10-02
セキュリティ情報管理
セキュリティ戦略生成
脆弱性予測

Bypassing Prompt Guards in Production with Controlled-Release Prompting

Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang | Published: 2025-10-02
プロンプトインジェクション
大規模言語モデル
構造的攻撃

Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach

Authors: Xiangfang Li, Yu Wang, Bo Li | Published: 2025-10-01 | Updated: 2025-10-09
インダイレクトプロンプトインジェクション
プロンプトリーキング
防御メカニズム

SPATA: Systematic Pattern Analysis for Detailed and Transparent Data Cards

Authors: João Vitorino, Eva Maia, Isabel Praça, Carlos Soares | Published: 2025-09-30
プライバシー保護機械学習
敵対的学習
解釈可能性

Explainable and Resilient ML-Based Physical-Layer Attack Detectors

Authors: Aleksandra Knapińska, Marija Furdek | Published: 2025-09-30
モデルインバージョン
モデル性能評価
物理層攻撃検出

SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From

Authors: Yao Tong, Haonan Wang, Siquan Li, Kenji Kawaguchi, Tianyang Hu | Published: 2025-09-30
トークン分布分析
ハルシネーション
モデル性能評価

Better Privilege Separation for Agents by Restricting Data Types

Authors: Dennis Jacob, Emad Alghamdi, Zhanhao Hu, Basel Alomair, David Wagner | Published: 2025-09-30
インダイレクトプロンプトインジェクション
セキュリティ戦略生成
悪意のあるプロンプト

Fingerprinting LLMs via Prompt Injection

Authors: Yuepeng Hu, Zhengyuan Jiang, Mengyuan Li, Osama Ahmed, Zhicong Huang, Cheng Hong, Neil Gong | Published: 2025-09-29 | Updated: 2025-10-01
インダイレクトプロンプトインジェクション
トークン識別手法
プロンプトインジェクション