SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models Authors: Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao | Published: 2024-02-07 | Updated: 2024-06-07 LLMセキュリティLLM性能評価プロンプトインジェクション 2024.02.07 2025.04.03 文献データベース
Homograph Attacks on Maghreb Sentiment Analyzers Authors: Fatima Zahra Qachfar, Rakesh M. Verma | Published: 2024-02-05 LLMセキュリティデータセット生成モデル性能評価 2024.02.05 2025.04.03 文献データベース
Detecting Scams Using Large Language Models Authors: Liming Jiang | Published: 2024-02-05 LLMセキュリティフィッシング検出プロンプトインジェクション 2024.02.05 2025.04.03 文献データベース
Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications Authors: Xuchen Suo | Published: 2024-01-15 LLMセキュリティプロンプトインジェクション 2024.01.15 2025.04.03 文献データベース
Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants Authors: Chun Fai Chan, Daniel Wankit Yip, Aysan Esmradi | Published: 2024-01-02 LLMセキュリティキャラクター役割演技システムプロンプト生成 2024.01.02 2025.04.03 文献データベース
A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models Authors: Daniel Wankit Yip, Aysan Esmradi, Chun Fai Chan | Published: 2024-01-02 LLMセキュリティプロンプトインジェクション攻撃の評価 2024.01.02 2025.04.03 文献データベース
Jatmo: Prompt Injection Defense by Task-Specific Finetuning Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei, Elizabeth Sun, Basel Alomair, David Wagner | Published: 2023-12-29 | Updated: 2024-01-08 LLMセキュリティサイバー攻撃プロンプトインジェクション 2023.12.29 2025.04.03 文献データベース
MetaAID 2.5: A Secure Framework for Developing Metaverse Applications via Large Language Models Authors: Hongyin Zhu | Published: 2023-12-22 LLMセキュリティデータ生成プロンプトインジェクション 2023.12.22 2025.04.03 文献データベース
No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models Authors: Shengyao Zhang, Mi Zhang, Xudong Pan, Min Yang | Published: 2023-12-15 | Updated: 2023-12-18 AIの進化LLMセキュリティウォーターマーキング 2023.12.15 2025.04.03 文献データベース
Maatphor: Automated Variant Analysis for Prompt Injection Attacks Authors: Ahmed Salem, Andrew Paverd, Boris Köpf | Published: 2023-12-12 LLMセキュリティプロンプトインジェクション評価手法 2023.12.12 2025.04.03 文献データベース