安全性評価

Extending the Formalism and Theoretical Foundations of Cryptography to AI

Authors: Federico Villa, F. Betül Durak, Tadayoshi Kohno, Tapdig Maharramli, Franziska Roesner | Published: 2026-03-03
データプライバシー管理
安全性評価
脅威モデル

Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution

Authors: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang | Published: 2026-03-02
アライメント
安全性評価
機械学習応用

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Authors: Zhihang Deng, Jiaping Gui, Weinan Zhang | Published: 2026-03-02
インダイレクトプロンプトインジェクション
安全性評価
脅威モデル

LLMs Can Unlearn Refusal with Only 1,000 Benign Samples

Authors: Yangyang Guo, Ziwei Xu, Si Liu, Zhiming Zheng, Mohan Kankanhalli | Published: 2026-01-27
LLM活用
大規模言語モデル
安全性評価

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs

Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu | Published: 2025-06-06 | Updated: 2025-10-30
アライメント
大規模言語モデル
安全性評価

SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models

Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Fernando Koch, Walid Saad, Holger Boche | Published: 2025-05-29 | Updated: 2025-10-27
プロンプトインジェクション
大規模言語モデル
安全性評価