What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks Authors: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper | Published: 2024-11-02 | Updated: 2025-05-14 LLMの安全機構の解除プロンプトインジェクション探索的攻撃 2024.11.02 文献データベース
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models Authors: Benji Peng, Keyu Chen, Qian Niu, Ziqian Bi, Ming Liu, Pohsun Feng, Tianyang Wang, Lawrence K. Q. Yan, Yizhu Wen, Yichao Zhang, Caitlyn Heqi Yin | Published: 2024-10-20 | Updated: 2025-05-08 LLMセキュリティLLMの安全機構の解除プロンプトインジェクション 2024.10.20 文献データベース
Denial-of-Service Poisoning Attacks against Large Language Models Authors: Kuofeng Gao, Tianyu Pang, Chao Du, Yong Yang, Shu-Tao Xia, Min Lin | Published: 2024-10-14 プロンプトインジェクションモデルDoSリソース不足の課題 2024.10.14 2025.04.03 文献データベース
On Calibration of LLM-based Guard Models for Reliable Content Moderation Authors: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang | Published: 2024-10-14 LLM性能評価コンテンツモデレーションプロンプトインジェクション 2024.10.14 2025.04.03 文献データベース
Can LLMs be Scammed? A Baseline Measurement Study Authors: Udari Madhushani Sehwag, Kelly Patel, Francesca Mosca, Vineeth Ravi, Jessica Staddon | Published: 2024-10-14 LLM性能評価プロンプトインジェクション評価手法 2024.10.14 2025.04.03 文献データベース
Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution Authors: Ankita Sinha, Wendi Cui, Kamalika Das, Jiaxin Zhang | Published: 2024-10-12 プロンプトインジェクションマルチオブジェクティブプロンプト最適化 2024.10.12 2025.04.03 文献データベース
Can a large language model be a gaslighter? Authors: Wei Li, Luyao Zhu, Yang Song, Ruixi Lin, Rui Mao, Yang You | Published: 2024-10-11 プロンプトインジェクション安全性アライメント攻撃手法 2024.10.11 2025.04.03 文献データベース
F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents Authors: Yupeng Ren | Published: 2024-10-11 | Updated: 2024-10-14 プロンプトインジェクション攻撃の評価攻撃手法 2024.10.11 2025.04.03 文献データベース
PILLAR: an AI-Powered Privacy Threat Modeling Tool Authors: Majid Mollaeefar, Andrea Bissoli, Silvio Ranise | Published: 2024-10-11 プライバシー保護プライバシー保護手法プロンプトインジェクション 2024.10.11 2025.04.03 文献データベース
APOLLO: A GPT-based tool to detect phishing emails and generate explanations that warn users Authors: Giuseppe Desolda, Francesco Greco, Luca Viganò | Published: 2024-10-10 フィッシング検出プロンプトインジェクションユーザー教育 2024.10.10 2025.04.03 文献データベース