Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models Authors: Yongcan Yu, Yanbo Wang, Ran He, Jian Liang | Published: 2025-05-28 LLMセキュリティプロンプトインジェクション大規模言語モデル 2025.05.28 文献データベース
Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities Authors: Anton Tkachenko, Dmitrij Suskevic, Benjamin Adolphi | Published: 2025-05-26 モデル評価手法大規模言語モデル透かし技術 2025.05.26 文献データベース
What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs Authors: Sangyeop Kim, Yohan Lee, Yongwoo Song, Kimin Lee | Published: 2025-05-26 プロンプトインジェクションモデル性能評価大規模言語モデル 2025.05.26 文献データベース
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval Authors: Taiye Chen, Zeming Wei, Ang Li, Yisen Wang | Published: 2025-05-21 RAG大規模言語モデル防御メカニズム 2025.05.21 文献データベース
sudoLLM : On Multi-role Alignment of Language Models Authors: Soumadeep Saha, Akshay Chaturvedi, Joy Mahapatra, Utpal Garain | Published: 2025-05-20 アライメントプロンプトインジェクション大規模言語モデル 2025.05.20 文献データベース
Dark LLMs: The Growing Threat of Unaligned AI Models Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15 LLMの安全機構の解除プロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース
Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15 LLMセキュリティプロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース
Towards a standardized methodology and dataset for evaluating LLM-based digital forensic timeline analysis Authors: Hudan Studiawan, Frank Breitinger, Mark Scanlon | Published: 2025-05-06 LLM性能評価大規模言語モデル評価手法 2025.05.06 文献データベース
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28 ユーザー識別システム大規模言語モデル安全性と有用性のトレードオフ 2025.04.28 文献データベース
Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate Authors: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu | Published: 2025-04-23 インダイレクトプロンプトインジェクションマルチラウンド対話大規模言語モデル 2025.04.23 文献データベース