プロンプトインジェクション

JULI: Jailbreak Large Language Models by Self-Introspection

Authors: Jesson Wang, Zhanhao Hu, David Wagner | Published: 2025-05-17 | Updated: 2025-05-20
APIセキュリティ
LLMの安全機構の解除
プロンプトインジェクション

Dark LLMs: The Growing Threat of Unaligned AI Models

Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15
LLMの安全機構の解除
プロンプトインジェクション
大規模言語モデル

Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data

Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15
LLMセキュリティ
プロンプトインジェクション
大規模言語モデル

PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization

Authors: Yidan Wang, Yanan Cao, Yubing Ren, Fang Fang, Zheng Lin, Binxing Fang | Published: 2025-05-15
LLMの安全機構の解除
プロンプトインジェクション
機械学習のプライバシー保護

SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models

Authors: Huining Cui, Wei Liu | Published: 2025-05-12
LLMセキュリティ
プロンプトインジェクション
プロンプトリーキング

Security through the Eyes of AI: How Visualization is Shaping Malware Detection

Authors: Asmitha K. A., Matteo Brosolo, Serena Nicolazzo, Antonino Nocera, Vinod P., Rafidha Rehiman K. A., Muhammed Shafi K. P | Published: 2025-05-12
プロンプトインジェクション
マルウェア分類
敵対的サンプルの検知

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin | Published: 2025-05-12
LLMセキュリティ
LLMの安全機構の解除
プロンプトインジェクション

Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs

Authors: Chetan Pathade | Published: 2025-05-07 | Updated: 2025-05-13
LLMセキュリティ
LLMの安全機構の解除
プロンプトインジェクション

Safeguard-by-Development: A Privacy-Enhanced Development Paradigm for Multi-Agent Collaboration Systems

Authors: Jian Cui, Zichuan Li, Luyi Xing, Xiaojing Liao | Published: 2025-05-07 | Updated: 2025-06-24
プライバシー保護
プライバシー保護フレームワーク
プロンプトインジェクション

LlamaFirewall: An open source guardrail system for building secure AI agents

Authors: Sahana Chennabasappa, Cyrus Nikolaidis, Daniel Song, David Molnar, Stephanie Ding, Shengye Wan, Spencer Whitman, Lauren Deason, Nicholas Doucette, Abraham Montilla, Alekhya Gampa, Beto de Paola, Dominik Gabi, James Crnkovich, Jean-Christophe Testud, Kat He, Rashnil Chaturvedi, Wu Zhou, Joshua Saxe | Published: 2025-05-06
LLMセキュリティ
アライメント
プロンプトインジェクション