出力の有害度の算出

Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift

Authors: Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong | Published: 2025-09-08

LLMの安全機構の解除

出力の有害度の算出

攻撃検出手法

2025.09.08

文献データベース

Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes

Authors: Zilong Lin, Zichuan Li, Xiaojing Liao, XiaoFeng Wang | Published: 2025-08-18

LLMの安全機構の解除

データ生成手法

出力の有害度の算出

2025.08.18

文献データベース

Fake or Real: The Impostor Hunt in Texts for Space Operations

Authors: Agata Kaczmarek, Dawid Płudowski, Piotr Wilczyński, Przemysław Biecek, Krzysztof Kotowski, Ramez Shendy, Jakub Nalepa, Artur Janicki, Evridiki Ntagiou | Published: 2025-07-17 | Updated: 2025-07-21

データ毒性

偽情報の検出

出力の有害度の算出

2025.07.17

文献データベース

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

Authors: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng | Published: 2025-06-12

データ収集手法

プロンプトリーキング

出力の有害度の算出

2025.06.12

文献データベース

CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning

Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22

アライメント

インダイレクトプロンプトインジェクション

出力の有害度の算出

2025.05.22

文献データベース

SoK: Knowledge is All You Need: Accelerating Last Mile Delivery for Automated Provenance-based Intrusion Detection with LLMs

Authors: Wenrui Cheng, Tiantian Zhu, Chunlin Xiong, Haofei Sun, Zijun Wang, Shunan Jing, Mingqi Lv, Yan Chen | Published: 2025-03-05 | Updated: 2025-04-28

RAG

出力の有害度の算出

攻撃検出

2025.03.05

文献データベース

Cross-Modal Safety Alignment: Is textual unlearning all you need?

Authors: Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengyu Song | Published: 2024-05-27 | Updated: 2025-10-14

プライバシー保護技術

出力の有害度の算出

大規模言語モデル

2024.05.27

文献データベース

Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models

Authors: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis | Published: 2023-12-13

プロンプティング戦略

出力の有害度の算出

大規模言語モデル

2023.12.13 2025.04.03

文献データベース

You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Authors: Xinlei He, Savvas Zannettou, Yun Shen, Yang Zhang | Published: 2023-08-10

テキストデトキシフィケーション

プロンプトリーキング

出力の有害度の算出

2023.08.10 2025.04.03

文献データベース

Toxicity Detection with Generative Prompt-based Inference

Authors: Yau-Shian Wang, Yingshan Chang | Published: 2022-05-24

プロンプティング戦略

出力の有害度の算出

大規模言語モデル

2022.05.24 2025.04.03

文献データベース