LLMの安全機構の解除

Black-Box Guardrail Reverse-engineering Attack

Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang | Published: 2025-11-06
LLMの安全機構の解除
プロンプトリーキング
情報セキュリティ

Death by a Thousand Prompts: Open Model Vulnerability Analysis

Authors: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan, Adam Swanda | Published: 2025-11-05
LLMの安全機構の解除
インダイレクトプロンプトインジェクション
脅威モデリング

Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks

Authors: Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Shouling Ji | Published: 2025-10-20
LLMの安全機構の解除
プロンプトインジェクション
悪意のあるコンテンツ生成

Proactive defense against LLM Jailbreak

Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06
LLMの安全機構の解除
プロンプトインジェクション
防御手法の統合

LLM Watermark Evasion via Bias Inversion

Authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok | Published: 2025-09-27 | Updated: 2025-10-01
LLMの安全機構の解除
モデルインバージョン
統計的検定

Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models

Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen | Published: 2025-09-26 | Updated: 2025-09-30
LLMの安全機構の解除
自己注意メカニズム
解釈可能性

RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks

Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang | Published: 2025-09-25
LLMの安全機構の解除
プロンプトインジェクション
透かし設計

bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He | Published: 2025-09-24
LLMの安全機構の解除
プロンプトインジェクション
生成モデル

Send to which account? Evaluation of an LLM-based Scambaiting System

Authors: Hossein Siadati, Haadi Jafarian, Sima Jafarikhah | Published: 2025-09-10
LLMの安全機構の解除
研究方法論
詐欺対策

Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift

Authors: Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong | Published: 2025-09-08
LLMの安全機構の解除
出力の有害度の算出
攻撃検出手法