aiXamine: LLM Safety and Security Simplified Authors: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil | Published: 2025-04-21 LLM性能評価アライメントパフォーマンス評価 2025.04.21 文献データベース
GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms Authors: Sinan He, An Wang | Published: 2025-04-17 アライメントプロンプトインジェクション脆弱性研究 2025.04.17 文献データベース
Personalized Attacks of Social Engineering in Multi-turn Conversations — LLM Agents for Simulation and Detection Authors: Tharindu Kumarage, Cameron Johnson, Jadie Adams, Lin Ai, Matthias Kirchner, Anthony Hoogs, Joshua Garland, Julia Hirschberg, Arslan Basharat, Huan Liu | Published: 2025-03-18 アライメントソーシャルエンジニアリング攻撃攻撃手法 2025.03.18 2025.04.03 文献データベース
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings Authors: Weikai Lu, Hao Peng, Huiping Zhuang, Cen Chen, Ziqian Zeng | Published: 2025-02-18 | Updated: 2025-05-21 アライメントテキスト生成手法プロンプトインジェクション 2025.02.18 文献データベース
Generating Privacy-Preserving Personalized Advice with Zero-Knowledge Proofs and LLMs Authors: Hiroki Watanabe, Motonobu Uchikoshi | Published: 2025-02-10 | Updated: 2025-04-24 アライメントプライバシー保護データマイニング透かし 2025.02.10 文献データベース
SimPO: Simple Preference Optimization with a Reference-Free Reward Authors: Yu Meng, Mengzhou Xia, Danqi Chen | Published: 2024-05-23 | Updated: 2024-11-01 アライメント最適化アルゴリズムの選択と評価深層学習 2024.05.23 2025.04.03 文献データベース
KTO: Model Alignment as Prospect Theoretic Optimization Authors: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela | Published: 2024-02-02 | Updated: 2024-11-19 アライメントデータ生成手法深層学習 2024.02.02 2025.04.03 文献データベース
Self-Rewarding Language Models Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston | Published: 2024-01-18 | Updated: 2024-02-08 アライメントモデルアーキテクチャ深層学習 2024.01.18 2025.04.03 文献データベース
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Authors: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa | Published: 2023-12-07 アライメントデータ生成手法リスク分析手法 2023.12.07 2025.04.03 文献データベース
A General Theoretical Paradigm to Understand Learning from Human Preferences Authors: Mohammad Gheshlaghi Azar, Mark Rowland, Bilal Piot, Daniel Guo, Daniele Calandriello, Michal Valko, Rémi Munos | Published: 2023-10-18 | Updated: 2023-11-22 アライメントデータ生成手法深層学習 2023.10.18 2025.04.03 文献データベース