Dark LLMs: The Growing Threat of Unaligned AI Models Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15 LLMの安全機構の解除プロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース
Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15 LLMセキュリティプロンプトインジェクション大規模言語モデル 2025.05.15 文献データベース
Towards a standardized methodology and dataset for evaluating LLM-based digital forensic timeline analysis Authors: Hudan Studiawan, Frank Breitinger, Mark Scanlon | Published: 2025-05-06 LLM性能評価大規模言語モデル評価手法 2025.05.06 文献データベース
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28 ユーザー識別システム大規模言語モデル安全性と有用性のトレードオフ 2025.04.28 文献データベース
Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate Authors: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu | Published: 2025-04-23 インダイレクトプロンプトインジェクションマルチラウンド対話大規模言語モデル 2025.04.23 文献データベース
Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey Authors: Shuang Tian, Tao Zhang, Jiqiang Liu, Jiacheng Wang, Xuangou Wu, Xiaoqiang Zhu, Ruichen Zhang, Weiting Zhang, Zhenhui Yuan, Shiwen Mao, Dong In Kim | Published: 2025-04-22 インダイレクトプロンプトインジェクションプロンプトインジェクション大規模言語モデル 2025.04.22 文献データベース
CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis Authors: Sofia Della Penna, Roberto Natella, Vittorio Orbinato, Lorenzo Parracino, Luciano Pianese | Published: 2025-04-08 LLMの応用モデル性能評価大規模言語モデル 2025.04.08 文献データベース
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking Authors: Yu-Hang Wu, Yu-Jie Xiong, Jie-Zhang | Published: 2025-04-08 LLMの応用プロンプトインジェクション大規模言語モデル 2025.04.08 文献データベース
PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization Authors: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang | Published: 2025-04-02 モデル性能評価大規模言語モデル透かし 2025.04.02 文献データベース
Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing Authors: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos | Published: 2025-03-27 システム開発プロンプトインジェクション大規模言語モデル 2025.03.27 2025.04.03 文献データベース