安全性アライメント

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04
プロンプトインジェクション
安全性アライメント
悪意のあるコンテンツ生成

Low-Resource Languages Jailbreak GPT-4

Authors: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach | Published: 2023-10-03 | Updated: 2024-01-27
プロンプトインジェクション
安全性アライメント
脆弱性検出

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

Authors: Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen | Published: 2023-09-18 | Updated: 2024-06-12
プロンプトインジェクション
安全性アライメント
防御手法

Censoring chemical data to mitigate dual use risk

Authors: Quintina L. Campbell, Jonathan Herington, Andrew D. White | Published: 2023-04-20
データ生成
プライバシー手法
安全性アライメント

Alignment with human representations supports robust few-shot learning

Authors: Ilia Sucholutsky, Thomas L. Griffiths | Published: 2023-01-27 | Updated: 2023-10-29
Few-Shot Learning
ウォーターマーキング
安全性アライメント