Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning Authors: Arshiya Khan, Guannan Liu, Xing Gao | Published: 2024-09-27 | Updated: 2025-06-11 コード脆弱性修復セキュリティコンテキスト統合大規模言語モデル 2024.09.27 文献データベース
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07 プロンプトインジェクション大規模言語モデル攻撃シナリオ分析 2024.08.20 2025.04.03 文献データベース
From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks Authors: Zhexin Zhang, Junxiao Yang, Yida Lu, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang | Published: 2024-07-03 | Updated: 2025-05-20 プロンプトインジェクション大規模言語モデル法執行回避 2024.07.03 文献データベース
Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models Authors: Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, Yuliang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li | Published: 2024-06-17 | Updated: 2025-06-09 LLMとの協力効果プロンプトインジェクション大規模言語モデル 2024.06.17 文献データベース
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang | Published: 2024-05-23 | Updated: 2025-04-07 リスク分析手法大規模言語モデル安全性アライメント 2024.05.23 文献データベース
Watermark Stealing in Large Language Models Authors: Nikola Jovanović, Robin Staab, Martin Vechev | Published: 2024-02-29 | Updated: 2024-06-24 モデル抽出攻撃大規模言語モデル攻撃の分類 2024.02.29 2025.04.03 文献データベース
Measuring Implicit Bias in Explicitly Unbiased Large Language Models Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths | Published: 2024-02-06 | Updated: 2024-05-23 AIによる出力のバイアスの検出アルゴリズムの公平性大規模言語モデル 2024.02.06 2025.04.03 文献データベース
Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models Authors: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis | Published: 2023-12-13 プロンプティング戦略出力の有害度の算出大規模言語モデル 2023.12.13 2025.04.03 文献データベース
Gender bias and stereotypes in Large Language Models Authors: Hadas Kotek, Rikker Dockum, David Q. Sun | Published: 2023-08-28 AIによる出力のバイアスの検出アルゴリズムの公平性大規模言語モデル 2023.08.28 2025.04.03 文献データベース
Toxicity Detection with Generative Prompt-based Inference Authors: Yau-Shian Wang, Yingshan Chang | Published: 2022-05-24 プロンプティング戦略出力の有害度の算出大規模言語モデル 2022.05.24 2025.04.03 文献データベース