プロンプトインジェクション

Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers

Authors: Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes | Published: 2025-10-16

プロンプトインジェクション

プロンプトリーキング

大規模言語モデル

2025.10.16

文献データベース

LLM-Assisted Web Measurements

Authors: Simone Bozzolan, Stefano Calzavara, Lorenzo Cazzaro | Published: 2025-10-09

AIによる出力のバイアスの検出

アプリ分類手法

プロンプトインジェクション

2025.10.09

文献データベース

Fewer Weights, More Problems: A Practical Attack on LLM Pruning

Authors: Kazuki Egashira, Robin Staab, Thibaud Gloaguen, Mark Vero, Martin Vechev | Published: 2025-10-09

セキュリティ分析手法

プロンプトインジェクション

防御効果分析

2025.10.09

文献データベース

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

Authors: Weisen Jiang, Sinno Jialin Pan | Published: 2025-10-09

プロンプトインジェクション

ロバスト性

防御メカニズム

2025.10.09

文献データベース

Proactive defense against LLM Jailbreak

Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06

LLMの安全機構の解除

プロンプトインジェクション

防御手法の統合

2025.10.06

文献データベース

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

Authors: Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu | Published: 2025-10-06

プロンプトインジェクション

プロンプトの検証

防御手法の統合

2025.10.06

文献データベース

NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks

Authors: Javad Rafiei Asl, Sidhant Narula, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-03 | Updated: 2025-10-21

プロンプトインジェクション

大規模言語モデル

脱獄手法

2025.10.03

文献データベース

Untargeted Jailbreak Attack

Authors: Xinzhe Huang, Wenjing Hu, Tianhang Zheng, Kedong Xiu, Xiaojun Jia, Di Wang, Zhan Qin, Kui Ren | Published: 2025-10-03 | Updated: 2025-10-28

プロンプトインジェクション

プロンプトリーキング

防御手法の効果分析

2025.10.03

文献データベース

FalseCrashReducer: Mitigating False Positive Crashes in OSS-Fuzz-Gen Using Agentic AI

Authors: Paschal C. Amusuo, Dongge Liu, Ricardo Andres Calvo Mendez, Jonathan Metzman, Oliver Chang, James C. Davis | Published: 2025-10-02

プログラム解析

プロンプトインジェクション

誤検知管理

2025.10.02

文献データベース

Bypassing Prompt Guards in Production with Controlled-Release Prompting

Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang | Published: 2025-10-02

プロンプトインジェクション

大規模言語モデル

構造的攻撃

2025.10.02

文献データベース