Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization Authors: Furkan Mumcu, Yasin Yilmaz | Published: 2026-03-04 アライメントロバスト最適化最適化手法 2026.03.04 文献データベース
A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan | Published: 2026-03-04 LLM性能評価アライメント評価指標 2026.03.04 文献データベース
Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution Authors: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang | Published: 2026-03-02 アライメント安全性評価機械学習応用 2026.03.02 文献データベース
Layer-Targeted Multilingual Knowledge Erasure in Large Language Models Authors: Taoran Li, Varun Chandrasekaran, Zhiyuan Yu | Published: 2026-02-26 アライメントマシン・アンラーニング機械学習手法 2026.02.26 文献データベース
From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses Authors: Xiangtao Meng, Tianshuo Cong, Li Wang, Wenyu Chen, Zheng Li, Shanqing Guo, Xiaoyun Wang | Published: 2025-10-09 アライメントインダイレクトプロンプトインジェクション防御効果分析 2025.10.09 文献データベース
Investigating Security Implications of Automatically Generated Code on the Software Supply Chain Authors: Xiaofan Li, Xing Gao | Published: 2025-09-24 アライメントインダイレクトプロンプトインジェクション脆弱性研究 2025.09.24 文献データベース
Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability Authors: Shova Kuikel, Aritran Piplai, Palvi Aggarwal | Published: 2025-06-16 アライメントプロンプトインジェクション大規模言語モデル 2025.06.16 文献データベース
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng | Published: 2025-06-14 | Updated: 2025-09-30 アライメント倫理声明悪意のあるプロンプト 2025.06.14 文献データベース
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu | Published: 2025-06-06 | Updated: 2025-10-30 アライメント大規模言語モデル安全性評価 2025.06.06 文献データベース
Client-Side Zero-Shot LLM Inference for Comprehensive In-Browser URL Analysis Authors: Avihay Cohen | Published: 2025-06-04 アライメントプロンプトインジェクション動的分析 2025.06.04 文献データベース