プロンプトインジェクション

Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration

Authors: Tatia Tsmindashvili, Ana Kolkhidashvili, Dachi Kurtskhalia, Nino Maghlakelidze, Elene Mekvabishvili, Guram Dentoshvili, Orkhan Shamilov, Zaal Gachechiladze, Steven Saporta, David Dachi Choladze | Published: 2025-05-18 | Updated: 2025-08-11

プロンプトインジェクション

大規模言語モデル

性能評価手法

2025.05.18

文献データベース

MARVEL: Multi-Agent RTL Vulnerability Extraction using Large Language Models

Authors: Luca Collini, Baleegh Ahmad, Joey Ah-kiow, Ramesh Karri | Published: 2025-05-17 | Updated: 2025-06-09

RAGへのポイズニング攻撃

サイバー脅威

プロンプトインジェクション

2025.05.17

文献データベース

JULI: Jailbreak Large Language Models by Self-Introspection

Authors: Jesson Wang, Zhanhao Hu, David Wagner | Published: 2025-05-17 | Updated: 2025-05-20

APIセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.17

文献データベース

Dark LLMs: The Growing Threat of Unaligned AI Models

Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15

LLMの安全機構の解除

プロンプトインジェクション

大規模言語モデル

2025.05.15

文献データベース

Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data

Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-05-15

LLMセキュリティ

プロンプトインジェクション

大規模言語モデル

2025.05.15

文献データベース

PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization

Authors: Yidan Wang, Yanan Cao, Yubing Ren, Fang Fang, Zheng Lin, Binxing Fang | Published: 2025-05-15

LLMの安全機構の解除

プロンプトインジェクション

機械学習のプライバシー保護

2025.05.15

文献データベース

SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models

Authors: Huining Cui, Wei Liu | Published: 2025-05-12

LLMセキュリティ

プロンプトインジェクション

プロンプトリーキング

2025.05.12

文献データベース

Security through the Eyes of AI: How Visualization is Shaping Malware Detection

Authors: Asmitha K. A., Matteo Brosolo, Serena Nicolazzo, Antonino Nocera, Vinod P., Rafidha Rehiman K. A., Muhammed Shafi K. P | Published: 2025-05-12

プロンプトインジェクション

マルウェア分類

敵対的サンプルの検知

2025.05.12

文献データベース

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin | Published: 2025-05-12

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.12

文献データベース

Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs

Authors: Chetan Pathade | Published: 2025-05-07 | Updated: 2025-05-13

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.07

文献データベース