プロンプトの検証

Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)

Authors: Apurv Verma, Satyapriya Krishna, Sebastian Gehrmann, Madhavan Seshadri, Anu Pradhan, Tom Ault, Leslie Barrett, David Rabinowitz, John Doucette, NhatHai Phan | Published: 2024-07-20 | Updated: 2025-07-10
プロンプトインジェクション
プロンプトの検証
敵対的攻撃

Toxicity Detection for Free

Authors: Zhanhao Hu, Julien Piet, Geng Zhao, Jiantao Jiao, David Wagner | Published: 2024-05-29 | Updated: 2024-11-08
インダイレクトプロンプトインジェクション
プロンプトの検証
悪意のあるプロンプト

Large Language Model Sentinel: LLM Agent for Adversarial Purification

Authors: Guang Lin, Toshihisa Tanaka, Qibin Zhao | Published: 2024-05-24 | Updated: 2025-04-23
プロンプトの検証
敵対的テキスト浄化
防御メカニズム

Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information

Authors: Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng Huang, Viswanathan Swaminathan | Published: 2023-11-20 | Updated: 2024-02-18
プロンプトインジェクション
プロンプトの検証
ロバスト性に関する評価

Fact-Checking Complex Claims with Program-Guided Reasoning

Authors: Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, Min-Yen Kan, Preslav Nakov | Published: 2023-05-22
プロンプトの検証
偽情報の検出
実世界の事実確認

Towards Few-Shot Fact-Checking via Perplexity

Authors: Nayeon Lee, Yejin Bang, Andrea Madotto, Madian Khabsa, Pascale Fung | Published: 2021-03-17
Few-Shot Learning
プロンプトの検証
偽情報の検出