AIセキュリティポータルbot

SAID: Empowering Large Language Models with Self-Activating Internal Defense

Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23
プロンプトインジェクション
モデルの堅牢性
大規模言語モデル

LLMs can hide text in other text of the same length

Authors: Antonio Norelli, Michael Bronstein | Published: 2025-10-22 | Updated: 2025-10-27
プライバシー保護
プロンプトの検証
教育目的の情報提供

The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models

Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye | Published: 2025-10-22
プライバシー保護機械学習
モデルの堅牢性
低コストのメンバシップ推論手法

Exploring the Effect of DNN Depth on Adversarial Attacks in Network Intrusion Detection Systems

Authors: Mohamed ElShehaby, Ashraf Matrawy | Published: 2025-10-22
ネットワーク脅威検出
モデルの堅牢性
モデルの頑健性保証

CircuitGuard: Mitigating LLM Memorization in RTL Code Generation Against IP Leakage

Authors: Nowfel Mashnoor, Mohammad Akyash, Hadi Kamali, Kimia Azar | Published: 2025-10-22
プライバシー保護機械学習
プロンプトリーキング
情報漏洩の原因

Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection

Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan | Published: 2025-10-22
プラットフォームアーキテクチャ
モデルの堅牢性
研究方法論

Monitoring LLM-based Multi-Agent Systems Against Corruptions via Node Evaluation

Authors: Chengcan Wu, Zhixin Zhang, Mingqian Xu, Zeming Wei, Meng Sun | Published: 2025-10-22
インダイレクトプロンプトインジェクション
エージェント設計
ネットワーク脅威検出

Defending Against Prompt Injection with DataFilter

Authors: Yizhu Wang, Sizhe Chen, Raghad Alkhudair, Basel Alomair, David Wagner | Published: 2025-10-22
インダイレクトプロンプトインジェクション
プロンプトインジェクション
プロンプトインジェクション攻撃

OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform

Authors: Thomas Wang, Haowen Li | Published: 2025-10-22
プラットフォームアーキテクチャ
動的ポリシー適応
著者貢献

HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models

Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-21
クエリ生成手法
大規模言語モデル
脱獄手法