脱獄攻撃手法

SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism

Authors: Beitao Chen, Xinyu Lyu, Lianli Gao, Jingkuan Song, Heng Tao Shen | Published: 2025-07-02
プロンプトインジェクション
脱獄攻撃手法
透明性と検証

MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs

Authors: Boyuan Chen, Minghao Shao, Abdul Basit, Siddharth Garg, Muhammad Shafique | Published: 2025-06-27 | Updated: 2025-08-13
フレームワーク
大規模言語モデル
脱獄攻撃手法

SoK: Evaluating Jailbreak Guardrails for Large Language Models

Authors: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-06-12
プロンプトインジェクション
安全性と有用性のトレードオフ
脱獄攻撃手法