AIセキュリティポータルbot

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

Authors: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye | Published: 2025-05-22
LLMセキュリティ
バックドア攻撃

CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework

Authors: Viet Pham, Thai Le | Published: 2025-05-22
LLMセキュリティ
プロンプトインジェクション
対抗的学習

Unlearning Isn’t Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Authors: Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du | Published: 2025-05-22
AIによる出力のバイアスの検出
プライバシー管理
マシン・アンラーニング

CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models

Authors: Zhenzhen Ren, GuoBiao Li, Sheng Li, Zhenxing Qian, Xinpeng Zhang | Published: 2025-05-22
LLMセキュリティ
フィンガープリンティング手法
モデル識別

When Safety Detectors Aren’t Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques

Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu | Published: 2025-05-22
LLMの安全機構の解除
プロンプトインジェクション
透かし除去技術

Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization

Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22
LLMセキュリティ
アライメント
敵対的学習

BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models

Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22
LLMセキュリティ
テキスト生成手法
プロンプトインジェクション

Finetuning-Activated Backdoors in LLMs

Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22
LLMセキュリティ
バックドア攻撃
プロンプトインジェクション

CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning

Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22
アライメント
インダイレクトプロンプトインジェクション
出力の有害度の算出

DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection

Authors: Yuliang Yan, Haochun Tang, Shuo Yan, Enyan Dai | Published: 2025-05-22
フィンガープリンティング手法
プロンプトインジェクション
モデル識別