倫理声明

IF-GUIDE: Influence Function-Guided Detoxification of LLMs

Authors: Zachary Coalson, Juhan Bae, Nicholas Carlini, Sanghyun Hong | Published: 2025-06-02 | Updated: 2025-06-09
テキストデトキシフィケーション
倫理声明
影響関数

Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents

Authors: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu | Published: 2025-02-17 | Updated: 2025-03-23
インダイレクトプロンプトインジェクション
倫理声明
意思決定ダイナミクス