カウンターファクチュアル説明

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Authors: Tian Zhang, Yiwei Xu, Juan Wang, Keyan Guo, Xiaoyang Xu, Bowen Xiao, Quanlong Guan, Jinlin Fan, Jiawei Liu, Zhiquan Liu, Hongxin Hu | Published: 2026-02-26
インダイレクトプロンプトインジェクション
カウンターファクチュアル説明
データ管理システム

The privacy issue of counterfactual explanations: explanation linkage attacks

Authors: Sofie Goethals, Kenneth Sörensen, David Martens | Published: 2022-10-21
カウンターファクチュアル説明
プライバシー侵害
評価手法