安全性アライメント

An Adversarial Perspective on Machine Unlearning for AI Safety

Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando | Published: 2024-09-26 | Updated: 2025-04-10

プロンプトインジェクション

安全性アライメント

機械学習の忘却

2024.09.26

文献データベース

Safeguarding AI Agents: Developing and Analyzing Safety Architectures

Authors: Ishaan Domkundwar, Mukunda N S, Ishaan Bhola | Published: 2024-09-03 | Updated: 2024-09-13

コンテンツモデレーション

内部レビューシステム

安全性アライメント

2024.09.03 2025.04.03

文献データベース

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

Authors: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu | Published: 2024-08-18 | Updated: 2024-09-03

LLMセキュリティ

プロンプトインジェクション

安全性アライメント

2024.08.18 2025.04.03

文献データベース

SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming

Authors: Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2024-08-14

ウォーターマーキング

データセット生成

安全性アライメント

2024.08.14 2025.04.03

文献データベース

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

Authors: Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson | Published: 2024-06-10

LLMセキュリティ

プロンプトインジェクション

安全性アライメント

2024.06.10 2025.04.03

文献データベース

S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models

Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang | Published: 2024-05-23 | Updated: 2025-04-07

リスク分析手法

大規模言語モデル

安全性アライメント

2024.05.23

文献データベース

Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes

Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi | Published: 2024-04-05 | Updated: 2024-09-09

LLMセキュリティ

プロンプトインジェクション

安全性アライメント

2024.04.05 2025.04.03

文献データベース

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

Authors: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao | Published: 2024-01-22 | Updated: 2024-08-20

プロンプトインジェクション

安全性アライメント

心理的操作

2024.01.22 2025.04.03

文献データベース

AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models

Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang, Furong Huang, Ani Nenkova, Tong Sun | Published: 2023-10-23 | Updated: 2023-12-14

プロンプトインジェクション

安全性アライメント

攻撃手法

2023.10.23 2025.04.03

文献データベース

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04

プロンプトインジェクション

安全性アライメント

悪意のあるコンテンツ生成

2023.10.04 2025.04.03

文献データベース