大規模言語モデル

Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

Authors: Taiye Chen, Zeming Wei, Ang Li, Yisen Wang | Published: 2025-05-21
RAG
大規模言語モデル
防御メカニズム

sudoLLM : On Multi-role Alignment of Language Models

Authors: Soumadeep Saha, Akshay Chaturvedi, Joy Mahapatra, Utpal Garain | Published: 2025-05-20
アライメント
プロンプトインジェクション
大規模言語モデル

Dark LLMs: The Growing Threat of Unaligned AI Models

Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15
LLMの安全機構の解除
プロンプトインジェクション
大規模言語モデル

Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data

Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15
LLMセキュリティ
プロンプトインジェクション
大規模言語モデル

Towards a standardized methodology and dataset for evaluating LLM-based digital forensic timeline analysis

Authors: Hudan Studiawan, Frank Breitinger, Mark Scanlon | Published: 2025-05-06
LLM性能評価
大規模言語モデル
評価手法

$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation

Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28
ユーザー識別システム
大規模言語モデル
安全性と有用性のトレードオフ

Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based Multi-Agent Debate

Authors: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu | Published: 2025-04-23
インダイレクトプロンプトインジェクション
マルチラウンド対話
大規模言語モデル

Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

Authors: Shuang Tian, Tao Zhang, Jiqiang Liu, Jiacheng Wang, Xuangou Wu, Xiaoqiang Zhu, Ruichen Zhang, Weiting Zhang, Zhenhui Yuan, Shiwen Mao, Dong In Kim | Published: 2025-04-22
インダイレクトプロンプトインジェクション
プロンプトインジェクション
大規模言語モデル

CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis

Authors: Sofia Della Penna, Roberto Natella, Vittorio Orbinato, Lorenzo Parracino, Luciano Pianese | Published: 2025-04-08
LLMの応用
モデル性能評価
大規模言語モデル

Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking

Authors: Yu-Hang Wu, Yu-Jie Xiong, Jie-Zhang | Published: 2025-04-08
LLMの応用
プロンプトインジェクション
大規模言語モデル