説明手法

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs

Authors: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Vinod P | Published: 2025-04-30
LLMの安全機構の解除
プロンプトインジェクション
説明手法

On the Privacy Risks of Model Explanations

Authors: Reza Shokri, Martin Strobel, Yair Zick | Published: 2019-06-29 | Updated: 2021-02-05
メンバーシップ推論
敵対的攻撃
説明手法