sudoLLM : On Multi-role Alignment of Language Models Authors: Soumadeep Saha, Akshay Chaturvedi, Joy Mahapatra, Utpal Garain | Published: 2025-05-20 アライメントプロンプトインジェクション大規模言語モデル 2025.05.20 文献データベース
Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs Authors: Jiawen Wang, Pritha Gupta, Ivan Habernal, Eyke Hüllermeier | Published: 2025-05-20 LLMセキュリティLLMの安全機構の解除プロンプトインジェクション 2025.05.20 文献データベース
Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion Authors: Tiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You | Published: 2025-05-20 LLMセキュリティLLMの安全機構の解除プロンプトインジェクション 2025.05.20 文献データベース
PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng | Published: 2025-05-20 LLMの安全機構の解除プロンプトインジェクション防御手法の効果分析 2025.05.20 文献データベース
Evaluatiing the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset Authors: Sayon Palit, Daniel Woods | Published: 2025-05-19 LLMセキュリティプロンプトインジェクション攻撃手法 2025.05.19 文献データベース
Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration Authors: Tatia Tsmindashvili, Ana Kolkhidashvili, Dachi Kurtskhalia, Nino Maghlakelidze, Elene Mekvabishvili, Guram Dentoshvili, Orkhan Shamilov, Zaal Gachechiladze, Steven Saporta, David Dachi Choladze | Published: 2025-05-18 | Updated: 2025-08-11 プロンプトインジェクション大規模言語モデル性能評価手法 2025.05.18 文献データベース
MARVEL: Multi-Agent RTL Vulnerability Extraction using Large Language Models Authors: Luca Collini, Baleegh Ahmad, Joey Ah-kiow, Ramesh Karri | Published: 2025-05-17 | Updated: 2025-06-09 RAGへのポイズニング攻撃サイバー脅威プロンプトインジェクション 2025.05.17 文献データベース
JULI: Jailbreak Large Language Models by Self-Introspection Authors: Jesson Wang, Zhanhao Hu, David Wagner | Published: 2025-05-17 | Updated: 2025-05-20 APIセキュリティLLMの安全機構の解除プロンプトインジェクション 2025.05.17 文献データベース
Dark LLMs: The Growing Threat of Unaligned AI Models Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15 LLMの安全機構の解除プロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース
Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15 LLMセキュリティプロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース