文献データベース

Can Large Language Models Really Recognize Your Name?

Authors: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr | Published: 2025-05-20
LLMセキュリティ
インダイレクトプロンプトインジェクション
プライバシー漏洩

Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs

Authors: Jiawen Wang, Pritha Gupta, Ivan Habernal, Eyke Hüllermeier | Published: 2025-05-20
LLMセキュリティ
LLMの安全機構の解除
プロンプトインジェクション

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion

Authors: Tiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You | Published: 2025-05-20
LLMセキュリティ
LLMの安全機構の解除
プロンプトインジェクション

Adversarially Pretrained Transformers may be Universally Robust In-Context Learners

Authors: Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki | Published: 2025-05-20
モデルの頑健性保証
ロバスト性とプライバシーの関係
敵対的学習

PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks

Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng | Published: 2025-05-20
LLMの安全機構の解除
プロンプトインジェクション
防御手法の効果分析

Fragments to Facts: Partial-Information Fragment Inference from LLMs

Authors: Lucas Rosenblatt, Bin Han, Robert Wolfe, Bill Howe | Published: 2025-05-20
プライバシー漏洩
プロンプトリーキング
医療AIの脅威

FlowPure: Continuous Normalizing Flows for Adversarial Purification

Authors: Elias Collaert, Abel Rodríguez, Sander Joos, Lieven Desmet, Vera Rimmer | Published: 2025-05-19
堅牢性向上手法
敵対的学習
防御手法の効果分析

Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

Authors: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer | Published: 2025-05-19
LLMセキュリティ
バグ修正手法
透かし技術

The Hidden Dangers of Browsing AI Agents

Authors: Mykyta Mudryi, Markiyan Chaklosh, Grzegorz Wójcik | Published: 2025-05-19
LLMセキュリティ
インダイレクトプロンプトインジェクション
攻撃手法

Evaluatiing the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset

Authors: Sayon Palit, Daniel Woods | Published: 2025-05-19
LLMセキュリティ
プロンプトインジェクション
攻撃手法