LLMの安全機構の解除

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion

Authors: Tiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You | Published: 2025-05-20

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.20

文献データベース

PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks

Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng | Published: 2025-05-20

LLMの安全機構の解除

プロンプトインジェクション

防御手法の効果分析

2025.05.20

文献データベース

JULI: Jailbreak Large Language Models by Self-Introspection

Authors: Jesson Wang, Zhanhao Hu, David Wagner | Published: 2025-05-17 | Updated: 2025-05-20

APIセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.17

文献データベース

Dark LLMs: The Growing Threat of Unaligned AI Models

Authors: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach | Published: 2025-05-15

LLMの安全機構の解除

プロンプトインジェクション

大規模言語モデル

2025.05.15

文献データベース

PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization

Authors: Yidan Wang, Yanan Cao, Yubing Ren, Fang Fang, Zheng Lin, Binxing Fang | Published: 2025-05-15

LLMの安全機構の解除

プロンプトインジェクション

機械学習のプライバシー保護

2025.05.15

文献データベース

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin | Published: 2025-05-12

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.12

文献データベース

I Know What You Said: Unveiling Hardware Cache Side-Channels in Local Large Language Model Inference

Authors: Zibo Gao, Junjie Hu, Feng Guo, Yixin Zhang, Yinglong Han, Siyuan Liu, Haiyang Li, Zhiqiang Lv | Published: 2025-05-10 | Updated: 2025-05-14

LLMの安全機構の解除

プロンプトリーキング

攻撃検出手法

2025.05.10

文献データベース

Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs

Authors: Chetan Pathade | Published: 2025-05-07 | Updated: 2025-05-13

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.07

文献データベース

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs

Authors: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Vinod P | Published: 2025-04-30

LLMの安全機構の解除

プロンプトインジェクション

説明手法

2025.04.30

文献データベース

LLM-IFT: LLM-Powered Information Flow Tracking for Secure Hardware

Authors: Nowfel Mashnoor, Mohammad Akyash, Hadi Kamali, Kimia Azar | Published: 2025-04-09

LLMの安全機構の解除

フレームワーク

効率的な構成検証

2025.04.09

文献データベース