プロンプトインジェクション

CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning

Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-03-12 | Updated: 2025-09-17

LLMの安全機構の解除

セキュリティ分析

プロンプトインジェクション

2025.03.12

文献データベース

Probabilistic Modeling of Jailbreak on Multimodal LLMs: From Quantification to Application

Authors: Wenzhuo Xu, Zhipeng Wei, Xiongtao Sun, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou | Published: 2025-03-10 | Updated: 2025-07-31

プロンプトインジェクション

大規模言語モデル

透かし技術の堅牢性

2025.03.10

文献データベース

Improving LLM Safety Alignment with Dual-Objective Optimization

Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song | Published: 2025-03-05 | Updated: 2025-06-12

プロンプトインジェクション

ロバスト性向上手法

安全性と有用性のトレードオフ

2025.03.05

文献データベース

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Authors: Hanjiang Hu, Alexander Robey, Changliu Liu | Published: 2025-02-28 | Updated: 2025-08-25

バックドア攻撃

プロンプトインジェクション

透かし

2025.02.28

文献データベース

Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs

Authors: Shiyu Xiang, Ansen Zhang, Yanfei Cao, Yang Fan, Ronghao Chen | Published: 2025-02-26 | Updated: 2025-05-28

LLMセキュリティ

プロンプトインジェクション

攻撃の評価

2025.02.26

文献データベース

GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods

Authors: Ruixuan Huang, Xunguang Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-02-24 | Updated: 2025-07-09

プロンプトインジェクション

脱獄手法

評価手法

2025.02.24

文献データベース

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Authors: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehenaz Khaled, Ahmedul Kabir | Published: 2025-02-23 | Updated: 2025-06-12

プロンプトインジェクション

多エージェントシステムの評価

敵対的攻撃評価

2025.02.23

文献データベース

SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings

Authors: Weikai Lu, Hao Peng, Huiping Zhuang, Cen Chen, Ziqian Zeng | Published: 2025-02-18 | Updated: 2025-05-21

アライメント

テキスト生成手法

プロンプトインジェクション

2025.02.18

文献データベース

DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing

Authors: Yi Wang, Fenghua Weng, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang | Published: 2025-02-17 | Updated: 2025-05-29

LLMセキュリティ

プロンプトインジェクション

防御手法

2025.02.17

文献データベース

Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks

Authors: Andreas Happe, Jürgen Cito | Published: 2025-02-06 | Updated: 2025-09-11

インダイレクトプロンプトインジェクション

プロンプトインジェクション

攻撃戦略分析

2025.02.06

文献データベース