安全性アライメント

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04

プロンプトインジェクション

安全性アライメント

悪意のあるコンテンツ生成

2023.10.04 2025.04.03

文献データベース

Authors: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach | Published: 2023-10-03 | Updated: 2024-01-27

プロンプトインジェクション

安全性アライメント

脆弱性検出

2023.10.03 2025.04.03

文献データベース

Authors: Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen | Published: 2023-09-18 | Updated: 2024-06-12

プロンプトインジェクション

安全性アライメント

防御手法

2023.09.18 2025.04.03

文献データベース

Authors: Quintina L. Campbell, Jonathan Herington, Andrew D. White | Published: 2023-04-20

データ生成

プライバシー手法

安全性アライメント

2023.04.20 2025.04.03

文献データベース

Authors: Ilia Sucholutsky, Thomas L. Griffiths | Published: 2023-01-27 | Updated: 2023-10-29

Few-Shot Learning

ウォーターマーキング

安全性アライメント

2023.01.27 2025.04.03

文献データベース