スパース表現手法

Towards LLM Guardrails via Sparse Representation Steering

Authors: Zeqing He, Zhibo Wang, Huiyu Xu, Kui Ren | Published: 2025-03-21
スパース表現手法
モデルの解釈性
機械学習の役割