A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy Authors: Huandong Wang, Wenjie Fu, Yingzhou Tang, Zhilong Chen, Yuxi Huang, Jinghua Piao, Chen Gao, Fengli Xu, Tao Jiang, Yong Li | Published: 2025-01-16 サーベイ論文プライバシー保護プロンプトインジェクション大規模言語モデル 2025.01.16 2025.04.03 文献データベース
Tag&Tab: Pretraining Data Detection in Large Language Models Using Keyword-Based Membership Inference Attack Authors: Sagiv Antebi, Edan Habler, Asaf Shabtai, Yuval Elovici | Published: 2025-01-14 サイバーセキュリティプライバシー保護大規模言語モデル 2025.01.14 2025.04.03 文献データベース
Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards Authors: Yangsibo Huang, Milad Nasr, Anastasios Angelopoulos, Nicholas Carlini, Wei-Lin Chiang, Christopher A. Choquette-Choo, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Ken Ziyu Liu, Ion Stoica, Florian Tramer, Chiyuan Zhang | Published: 2025-01-13 サイバーセキュリティ大規模言語モデル攻撃の評価 2025.01.13 2025.04.03 文献データベース
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage Authors: Xiaoning Dong, Wenbo Hu, Wei Xu, Tianxing He | Published: 2024-12-19 | Updated: 2025-03-21 プロンプトインジェクション大規模言語モデル敵対的学習 2024.12.19 2025.04.03 文献データベース
“Moralized” Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks Authors: Libo Wang | Published: 2024-11-23 | Updated: 2025-03-20 プロンプトインジェクション大規模言語モデル 2024.11.23 2025.04.03 文献データベース
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07 プロンプトインジェクション大規模言語モデル攻撃シナリオ分析 2024.08.20 2025.04.03 文献データベース
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang | Published: 2024-05-23 | Updated: 2025-04-07 リスク分析手法大規模言語モデル安全性アライメント 2024.05.23 文献データベース
Watermark Stealing in Large Language Models Authors: Nikola Jovanović, Robin Staab, Martin Vechev | Published: 2024-02-29 | Updated: 2024-06-24 モデル抽出攻撃大規模言語モデル攻撃の分類 2024.02.29 2025.04.03 文献データベース
Measuring Implicit Bias in Explicitly Unbiased Large Language Models Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths | Published: 2024-02-06 | Updated: 2024-05-23 AIによる出力のバイアスの検出アルゴリズムの公平性大規模言語モデル 2024.02.06 2025.04.03 文献データベース
Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models Authors: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis | Published: 2023-12-13 プロンプティング戦略出力の有害度の算出大規模言語モデル 2023.12.13 2025.04.03 文献データベース