Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search Authors: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia | Published: 2026-02-26 プロンプトインジェクション大規模言語モデル脱獄手法 2026.02.26 文献データベース
Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents Authors: Doron Shavit | Published: 2026-02-18 大規模言語モデル検出手法の分析評価メトリクス 2026.02.18 文献データベース
DeepSight: An All-in-One LM Safety Toolkit Authors: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu | Published: 2026-02-12 プロンプトインジェクション大規模言語モデル評価手法 2026.02.12 文献データベース
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing Authors: Jona te Lintelo, Lichao Wu, Stjepan Picek | Published: 2026-02-09 プロンプトインジェクション大規模言語モデル安全性分析 2026.02.09 文献データベース
BadTemplate: A Training-Free Backdoor Attack via Chat Template Against Large Language Models Authors: Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Guowen Xu | Published: 2026-02-05 LLM性能評価データ毒性大規模言語モデル 2026.02.05 文献データベース
How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks Authors: Yanshu Wang, Shuaishuai Yang, Jingjing He, Tong Yang | Published: 2026-02-04 LLM性能評価プロンプトインジェクション大規模言語モデル 2026.02.04 文献データベース
LLMs Can Unlearn Refusal with Only 1,000 Benign Samples Authors: Yangyang Guo, Ziwei Xu, Si Liu, Zhiming Zheng, Mohan Kankanhalli | Published: 2026-01-27 LLM活用大規模言語モデル安全性評価 2026.01.27 文献データベース
SpatialJB: How Text Distribution Art Becomes the “Jailbreak Key” for LLM Guardrails Authors: Zhiyi Mou, Jingyuan Yang, Zeheng Qian, Wangze Ni, Tianfang Xiao, Ning Liu, Chen Zhang, Zhan Qin, Kui Ren | Published: 2026-01-14 LLM活用プロンプトインジェクション大規模言語モデル 2026.01.14 文献データベース
HoneyTrap: Deceiving Large Language Model Attackers to Honeypot Traps with Resilient Multi-Agent Defense Authors: Siyuan Li, Xi Lin, Jun Wu, Zehao Liu, Haoyu Li, Tianjie Ju, Xiang Chen, Jianhua Li | Published: 2026-01-07 プロンプトインジェクション大規模言語モデル敵対的攻撃検出 2026.01.07 文献データベース
Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense Authors: Zejian Chen, Chaozhuo Li, Chao Li, Xi Zhang, Litian Zhang, Yiming He | Published: 2026-01-07 プロンプトインジェクション大規模言語モデル敵対的攻撃検出 2026.01.07 文献データベース