LLMの安全機構の解除

Can LLMs Make (Personalized) Access Control Decisions?

Authors: Friederike Groschupp, Daniele Lain, Aritra Dhar, Lara Magdalena Lazier, Srdjan Čapkun | Published: 2025-11-25

LLMの安全機構の解除

プライバシー評価

プロンプトインジェクション

2025.11.25

文献データベース

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation

Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるプロンプト

2025.11.24

文献データベース

Black-Box Guardrail Reverse-engineering Attack

Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang | Published: 2025-11-06

LLMの安全機構の解除

プロンプトリーキング

情報セキュリティ

2025.11.06

文献データベース

Death by a Thousand Prompts: Open Model Vulnerability Analysis

Authors: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan, Adam Swanda | Published: 2025-11-05

LLMの安全機構の解除

インダイレクトプロンプトインジェクション

脅威モデリング

2025.11.05

文献データベース

Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks

Authors: Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Shouling Ji | Published: 2025-10-20

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるコンテンツ生成

2025.10.20

文献データベース

Proactive defense against LLM Jailbreak

Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06

LLMの安全機構の解除

プロンプトインジェクション

防御手法の統合

2025.10.06

文献データベース

LLM Watermark Evasion via Bias Inversion

Authors: Jeongyeon Hwang, Sangdon Park, Jungseul Ok | Published: 2025-09-27 | Updated: 2025-10-01

LLMの安全機構の解除

モデルインバージョン

統計的検定

2025.09.27

文献データベース

Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models

Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen | Published: 2025-09-26 | Updated: 2025-09-30

LLMの安全機構の解除

自己注意メカニズム

解釈可能性

2025.09.26

文献データベース

RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks

Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang | Published: 2025-09-25

LLMの安全機構の解除

プロンプトインジェクション

透かし設計

2025.09.25

文献データベース

bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He | Published: 2025-09-24

LLMの安全機構の解除

プロンプトインジェクション

生成モデル

2025.09.24

文献データベース