AIセキュリティポータルbot

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Authors: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia | Published: 2026-04-30
LLM性能評価
RAGへのポイズニング攻撃
プロンプトリーキング

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Authors: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao | Published: 2026-04-30
プロンプトインジェクション
研究方法論
評価手法

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Authors: Jona te Lintelo, Lichao Wu, Marina Krček, Sengim Karayalçin, Stjepan Picek | Published: 2026-04-30
インダイレクトプロンプトインジェクション
一般化性能
大規模言語モデル

VOW: Verifiable and Oblivious Watermark Detection for Large Language Models

Authors: Xiaokun Luan, Yihao Zhang, Pengcheng Su, Feiran Lei, Meng Sun | Published: 2026-04-30
生成AI向け電子透かし
評価手法
透かし技術

Low Rank Adaptation for Adversarial Perturbation

Authors: Han Liu, Shanghao Shi, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang | Published: 2026-04-30
一般化性能
低ランク敵対的攻撃
敵対的学習

Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study

Authors: Luyao Xu, Xiang Chen | Published: 2026-04-30
インダイレクトプロンプトインジェクション
攻撃チェーン分析
自律エージェントセキュリティ

AdaBFL: Multi-Layer Defensive Adaptive Aggregation for Bzantine-Robust Federated Learning

Authors: Zehui Tang, Yuchen Liu, Feihu Huang | Published: 2026-04-30
トリガーの検知
ビザンチン耐性
敵対的学習

Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations

Authors: Md Hasan Saju, Akramul Azim | Published: 2026-04-30
LLM性能評価
データ収集
モデルアンサンブル

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

Authors: Jun Yeon Won, Xin Jin, Shiqing Ma, Zhiqiang Lin | Published: 2026-04-30
LLM性能評価
プロンプトインジェクション
プロンプトリーキング

PRAG End-to-End Privacy-Preserving Retrieval-Augmented Generation

Authors: Zhijun Li, Minghui Xu, Huayi Qi, Wenxuan Yu, Tingchuang Zhang, Qiao Zhang, GuangYong Shang, Zhen Ma, Xiuzhen Cheng | Published: 2026-04-29
RAG
RAGへのポイズニング攻撃
プライバシー保護手法