Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes Authors: Zilong Lin, Zichuan Li, Xiaojing Liao, XiaoFeng Wang | Published: 2025-08-18 LLMの安全機構の解除データ生成手法出力の有害度の算出 2025.08.18 文献データベース
Fake or Real: The Impostor Hunt in Texts for Space Operations Authors: Agata Kaczmarek, Dawid Płudowski, Piotr Wilczyński, Przemysław Biecek, Krzysztof Kotowski, Ramez Shendy, Jakub Nalepa, Artur Janicki, Evridiki Ntagiou | Published: 2025-07-17 | Updated: 2025-07-21 データ毒性偽情報の検出出力の有害度の算出 2025.07.17 文献データベース
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark Authors: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng | Published: 2025-06-12 データ収集手法プロンプトリーキング出力の有害度の算出 2025.06.12 文献データベース
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22 アライメントインダイレクトプロンプトインジェクション出力の有害度の算出 2025.05.22 文献データベース
SoK: Knowledge is All You Need: Accelerating Last Mile Delivery for Automated Provenance-based Intrusion Detection with LLMs Authors: Wenrui Cheng, Tiantian Zhu, Chunlin Xiong, Haofei Sun, Zijun Wang, Shunan Jing, Mingqi Lv, Yan Chen | Published: 2025-03-05 | Updated: 2025-04-28 RAG出力の有害度の算出攻撃検出 2025.03.05 文献データベース
Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models Authors: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis | Published: 2023-12-13 プロンプティング戦略出力の有害度の算出大規模言語モデル 2023.12.13 2025.04.03 文献データベース
You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content Authors: Xinlei He, Savvas Zannettou, Yun Shen, Yang Zhang | Published: 2023-08-10 テキストデトキシフィケーションプロンプトリーキング出力の有害度の算出 2023.08.10 2025.04.03 文献データベース
Toxicity Detection with Generative Prompt-based Inference Authors: Yau-Shian Wang, Yingshan Chang | Published: 2022-05-24 プロンプティング戦略出力の有害度の算出大規模言語モデル 2022.05.24 2025.04.03 文献データベース