LLMセキュリティ

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

Authors: Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao | Published: 2024-02-07 | Updated: 2024-06-07
LLMセキュリティ
LLM性能評価
プロンプトインジェクション

Homograph Attacks on Maghreb Sentiment Analyzers

Authors: Fatima Zahra Qachfar, Rakesh M. Verma | Published: 2024-02-05
LLMセキュリティ
データセット生成
モデル性能評価

Detecting Scams Using Large Language Models

Authors: Liming Jiang | Published: 2024-02-05
LLMセキュリティ
フィッシング検出
プロンプトインジェクション

Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications

Authors: Xuchen Suo | Published: 2024-01-15
LLMセキュリティ
プロンプトインジェクション

Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants

Authors: Chun Fai Chan, Daniel Wankit Yip, Aysan Esmradi | Published: 2024-01-02
LLMセキュリティ
キャラクター役割演技
システムプロンプト生成

A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models

Authors: Daniel Wankit Yip, Aysan Esmradi, Chun Fai Chan | Published: 2024-01-02
LLMセキュリティ
プロンプトインジェクション
攻撃の評価

Jatmo: Prompt Injection Defense by Task-Specific Finetuning

Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei, Elizabeth Sun, Basel Alomair, David Wagner | Published: 2023-12-29 | Updated: 2024-01-08
LLMセキュリティ
サイバー攻撃
プロンプトインジェクション

MetaAID 2.5: A Secure Framework for Developing Metaverse Applications via Large Language Models

Authors: Hongyin Zhu | Published: 2023-12-22
LLMセキュリティ
データ生成
プロンプトインジェクション

No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models

Authors: Shengyao Zhang, Mi Zhang, Xudong Pan, Min Yang | Published: 2023-12-15 | Updated: 2023-12-18
AIの進化
LLMセキュリティ
ウォーターマーキング

Maatphor: Automated Variant Analysis for Prompt Injection Attacks

Authors: Ahmed Salem, Andrew Paverd, Boris Köpf | Published: 2023-12-12
LLMセキュリティ
プロンプトインジェクション
評価手法