LLM Watermark Evasion via Bias Inversion Authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok | Published: 2025-09-27 | Updated: 2025-10-01 LLMの安全機構の解除モデルインバージョン統計的検定 2025.09.27 文献データベース
Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen | Published: 2025-09-26 | Updated: 2025-09-30 LLMの安全機構の解除自己注意メカニズム解釈可能性 2025.09.26 文献データベース
RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang | Published: 2025-09-25 LLMの安全機構の解除プロンプトインジェクション透かし設計 2025.09.25 文献データベース
bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He | Published: 2025-09-24 LLMの安全機構の解除プロンプトインジェクション生成モデル 2025.09.24 文献データベース
Send to which account? Evaluation of an LLM-based Scambaiting System Authors: Hossein Siadati, Haadi Jafarian, Sima Jafarikhah | Published: 2025-09-10 LLMの安全機構の解除研究方法論詐欺対策 2025.09.10 文献データベース
Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift Authors: Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong | Published: 2025-09-08 LLMの安全機構の解除出力の有害度の算出攻撃検出手法 2025.09.08 文献データベース
EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint Authors: Zhenhua Xu, Meng Han, Wenpeng Xing | Published: 2025-09-03 LLMの安全機構の解除データ保護手法プロンプトの検証 2025.09.03 文献データベース
Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes Authors: Zilong Lin, Zichuan Li, Xiaojing Liao, XiaoFeng Wang | Published: 2025-08-18 LLMの安全機構の解除データ生成手法出力の有害度の算出 2025.08.18 文献データベース
PRISON: Unmasking the Criminal Potential of Large Language Models Authors: Xinyi Wu, Geng Hong, Pei Chen, Yueyue Chen, Xudong Pan, Min Yang | Published: 2025-06-19 | Updated: 2025-08-04 LLMの安全機構の解除法執行回避研究方法論 2025.06.19 文献データベース
LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge Authors: Songze Li, Chuokun Xu, Jiaying Wang, Xueluan Gong, Chen Chen, Jirui Zhang, Jun Wang, Kwok-Yan Lam, Shouling Ji | Published: 2025-06-11 LLMの安全機構の解除プロンプトインジェクション敵対的攻撃 2025.06.11 文献データベース