AIセキュリティポータルbot | ページ 17 | AIセキュリティポータル

Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis

Authors: Haoyu Zhang, Mohammad Zandsalimy, Shanu Sushmita | Published: 2026-05-05

LLMの安全機構の解除

プロンプトインジェクション

研究方法論

2026.05.05

文献データベース

ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection

Authors: Shihao Weng, Yang Feng, Jinrui Zhang, Xiaofei Xie, Jiongchi Yu, Jia Liu | Published: 2026-05-05

RAG

インダイレクトプロンプトインジェクション

評価手法

2026.05.05

文献データベース

Efficient Preference Poisoning Attack on Offline RLHF

Authors: Chenye Yang, Weiyu Xu, Lifeng Lai | Published: 2026-05-04

アライメント

ポイズニング

ポイズニング攻撃

2026.05.04

文献データベース

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Authors: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia | Published: 2026-04-30

LLM性能評価

RAGへのポイズニング攻撃

プロンプトリーキング

2026.04.30

文献データベース

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Authors: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao | Published: 2026-04-30

プロンプトインジェクション

研究方法論

評価手法

2026.04.30

文献データベース

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Authors: Jona te Lintelo, Lichao Wu, Marina Krček, Sengim Karayalçin, Stjepan Picek | Published: 2026-04-30

インダイレクトプロンプトインジェクション

一般化性能

大規模言語モデル

2026.04.30

文献データベース

VOW: Verifiable and Oblivious Watermark Detection for Large Language Models

Authors: Xiaokun Luan, Yihao Zhang, Pengcheng Su, Feiran Lei, Meng Sun | Published: 2026-04-30

生成AI向け電子透かし

評価手法

透かし技術

2026.04.30

文献データベース

Low Rank Adaptation for Adversarial Perturbation

Authors: Han Liu, Shanghao Shi, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang | Published: 2026-04-30

一般化性能

低ランク敵対的攻撃

敵対的学習

2026.04.30

文献データベース

Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study

Authors: Luyao Xu, Xiang Chen | Published: 2026-04-30

インダイレクトプロンプトインジェクション

攻撃チェーン分析

自律エージェントセキュリティ

2026.04.30

文献データベース

AdaBFL: Multi-Layer Defensive Adaptive Aggregation for Bzantine-Robust Federated Learning

Authors: Zehui Tang, Yuchen Liu, Feihu Huang | Published: 2026-04-30

トリガーの検知

ビザンチン耐性

敵対的学習

2026.04.30

文献データベース