安全性アライメント

Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction

Authors: Yuanbo Xie, Yingjie Zhang, Tianyun Liu, Duohe Ma, Tingwen Liu | Published: 2025-09-18

プロンプトインジェクション

安全性アライメント

拒否メカニズム

2025.09.18

文献データベース

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Authors: Yanbo Wang, Jiyang Guan, Jian Liang, Ran He | Published: 2025-04-14

プロンプトインジェクション

学習データの偏り

安全性アライメント

2025.04.14

文献データベース

Representation Bending for Large Language Model Safety

Authors: Ashkan Yousefpour, Taeheon Kim, Ryan S. Kwon, Seungbeen Lee, Wonje Jeung, Seungju Han, Alvin Wan, Harrison Ngan, Youngjae Yu, Jonghyun Choi | Published: 2025-04-02

プロンプトインジェクション

プロンプトリーキング

安全性アライメント

2025.04.02

文献データベース

AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds via Self-Improvement

Authors: J Rosser, Jakob Nicolaus Foerster | Published: 2025-02-02 | Updated: 2025-04-14

LLM性能評価

マルチオブジェクティブ最適化

安全性アライメント

2025.02.02

文献データベース

LLM Safety Alignment is Divergence Estimation in Disguise

Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing | Published: 2025-02-02

プロンプトインジェクション

収束分析

大規模言語モデル

安全性アライメント

2025.02.02 2025.04.03

文献データベース

LegalGuardian: A Privacy-Preserving Framework for Secure Integration of Large Language Models in Legal Practice

Authors: M. Mikail Demir, Hakan T. Otal, M. Abdullah Canbaz | Published: 2025-01-19

プライバシー保護

学習の改善

安全性アライメント

2025.01.19 2025.04.03

文献データベース

Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs

Authors: Joao Fonseca, Andrew Bell, Julia Stoyanovich | Published: 2025-01-02

フレームワーク

プロンプトインジェクション

安全性アライメント

2025.01.02 2025.04.03

文献データベース

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Authors: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao | Published: 2024-11-29 | Updated: 2025-01-17

プロンプトインジェクション

安全性アライメント

2024.11.29 2025.04.03

文献データベース

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi | Published: 2024-11-27 | Updated: 2025-03-20

プロンプトインジェクション

安全性アライメント

敵対的攻撃

2024.11.27 2025.04.03

文献データベース

Can a large language model be a gaslighter?

Authors: Wei Li, Luyao Zhu, Yang Song, Ruixi Lin, Rui Mao, Yang You | Published: 2024-10-11

プロンプトインジェクション

安全性アライメント

攻撃手法

2024.10.11 2025.04.03

文献データベース