アライメント

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Authors: Furkan Mumcu, Yasin Yilmaz | Published: 2026-03-04

アライメント

ロバスト最適化

最適化手法

2026.03.04

文献データベース

A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality

Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan | Published: 2026-03-04

LLM性能評価

アライメント

評価指標

2026.03.04

文献データベース

Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution

Authors: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang | Published: 2026-03-02

アライメント

安全性評価

機械学習応用

2026.03.02

文献データベース

Layer-Targeted Multilingual Knowledge Erasure in Large Language Models

Authors: Taoran Li, Varun Chandrasekaran, Zhiyuan Yu | Published: 2026-02-26

アライメント

マシン・アンラーニング

機械学習手法

2026.02.26

文献データベース

From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses

Authors: Xiangtao Meng, Tianshuo Cong, Li Wang, Wenyu Chen, Zheng Li, Shanqing Guo, Xiaoyun Wang | Published: 2025-10-09

アライメント

インダイレクトプロンプトインジェクション

防御効果分析

2025.10.09

文献データベース

Investigating Security Implications of Automatically Generated Code on the Software Supply Chain

Authors: Xiaofan Li, Xing Gao | Published: 2025-09-24

アライメント

インダイレクトプロンプトインジェクション

脆弱性研究

2025.09.24

文献データベース

Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability

Authors: Shova Kuikel, Aritran Piplai, Palvi Aggarwal | Published: 2025-06-16

アライメント

プロンプトインジェクション

大規模言語モデル

2025.06.16

文献データベース

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng | Published: 2025-06-14 | Updated: 2025-09-30

アライメント

倫理声明

悪意のあるプロンプト

2025.06.14

文献データベース

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs

Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu | Published: 2025-06-06 | Updated: 2025-10-30

アライメント

大規模言語モデル

安全性評価

2025.06.06

文献データベース

Client-Side Zero-Shot LLM Inference for Comprehensive In-Browser URL Analysis

Authors: Avihay Cohen | Published: 2025-06-04

アライメント

プロンプトインジェクション

動的分析

2025.06.04

文献データベース