LLMセキュリティ

Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization

Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22

LLMセキュリティ

アライメント

敵対的学習

2025.05.22

文献データベース

BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models

Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22

LLMセキュリティ

テキスト生成手法

プロンプトインジェクション

2025.05.22

文献データベース

Finetuning-Activated Backdoors in LLMs

Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2025.05.22

文献データベース

Can Large Language Models Really Recognize Your Name?

Authors: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr | Published: 2025-05-20

LLMセキュリティ

インダイレクトプロンプトインジェクション

プライバシー漏洩

2025.05.20

文献データベース

Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs

Authors: Jiawen Wang, Pritha Gupta, Ivan Habernal, Eyke Hüllermeier | Published: 2025-05-20

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.20

文献データベース

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion

Authors: Tiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You | Published: 2025-05-20

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.20

文献データベース

Fixing 7,400 Bugs for 1$: Cheap Crash-Site Program Repair

Authors: Han Zheng, Ilia Shumailov, Tianqi Fan, Aiden Hall, Mathias Payer | Published: 2025-05-19

LLMセキュリティ

バグ修正手法

透かし技術

2025.05.19

文献データベース

The Hidden Dangers of Browsing AI Agents

Authors: Mykyta Mudryi, Markiyan Chaklosh, Grzegorz Wójcik | Published: 2025-05-19

LLMセキュリティ

インダイレクトプロンプトインジェクション

攻撃手法

2025.05.19

文献データベース

Evaluatiing the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset

Authors: Sayon Palit, Daniel Woods | Published: 2025-05-19

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2025.05.19

文献データベース

From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents

Authors: Liangxuan Wu, Chao Wang, Tianming Liu, Yanjie Zhao, Haoyu Wang | Published: 2025-05-19

LLMセキュリティ

インダイレクトプロンプトインジェクション

攻撃手法

2025.05.19

文献データベース