Towards LLM Guardrails via Sparse Representation Steering Authors: Zeqing He, Zhibo Wang, Huiyu Xu, Kui Ren | Published: 2025-03-21 スパース表現手法モデルの解釈性機械学習の役割 2025.03.21 2025.04.03 文献データベース