SAID: Empowering Large Language Models with Self-Activating Internal Defense Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23 プロンプトインジェクションモデルの堅牢性大規模言語モデル 2025.10.23 文献データベース
LLMs can hide text in other text of the same length Authors: Antonio Norelli, Michael Bronstein | Published: 2025-10-22 | Updated: 2025-10-27 プライバシー保護プロンプトの検証教育目的の情報提供 2025.10.22 文献データベース
The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye | Published: 2025-10-22 プライバシー保護機械学習モデルの堅牢性低コストのメンバシップ推論手法 2025.10.22 文献データベース
Exploring the Effect of DNN Depth on Adversarial Attacks in Network Intrusion Detection Systems Authors: Mohamed ElShehaby, Ashraf Matrawy | Published: 2025-10-22 ネットワーク脅威検出モデルの堅牢性モデルの頑健性保証 2025.10.22 文献データベース
CircuitGuard: Mitigating LLM Memorization in RTL Code Generation Against IP Leakage Authors: Nowfel Mashnoor, Mohammad Akyash, Hadi Kamali, Kimia Azar | Published: 2025-10-22 プライバシー保護機械学習プロンプトリーキング情報漏洩の原因 2025.10.22 文献データベース
Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan | Published: 2025-10-22 プラットフォームアーキテクチャモデルの堅牢性研究方法論 2025.10.22 文献データベース
Monitoring LLM-based Multi-Agent Systems Against Corruptions via Node Evaluation Authors: Chengcan Wu, Zhixin Zhang, Mingqian Xu, Zeming Wei, Meng Sun | Published: 2025-10-22 インダイレクトプロンプトインジェクションエージェント設計ネットワーク脅威検出 2025.10.22 文献データベース
Defending Against Prompt Injection with DataFilter Authors: Yizhu Wang, Sizhe Chen, Raghad Alkhudair, Basel Alomair, David Wagner | Published: 2025-10-22 インダイレクトプロンプトインジェクションプロンプトインジェクションプロンプトインジェクション攻撃 2025.10.22 文献データベース
OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform Authors: Thomas Wang, Haowen Li | Published: 2025-10-22 プラットフォームアーキテクチャ動的ポリシー適応著者貢献 2025.10.22 文献データベース
HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-21 クエリ生成手法大規模言語モデル脱獄手法 2025.10.21 文献データベース