安全性評価

Extending the Formalism and Theoretical Foundations of Cryptography to AI

Authors: Federico Villa, F. Betül Durak, Tadayoshi Kohno, Tapdig Maharramli, Franziska Roesner | Published: 2026-03-03

データプライバシー管理

安全性評価

脅威モデル

2026.03.03

文献データベース

Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution

Authors: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang | Published: 2026-03-02

アライメント

安全性評価

機械学習応用

2026.03.02

文献データベース

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Authors: Zhihang Deng, Jiaping Gui, Weinan Zhang | Published: 2026-03-02

インダイレクトプロンプトインジェクション

安全性評価

脅威モデル

2026.03.02

文献データベース

LLMs Can Unlearn Refusal with Only 1,000 Benign Samples

Authors: Yangyang Guo, Ziwei Xu, Si Liu, Zhiming Zheng, Mohan Kankanhalli | Published: 2026-01-27

LLM活用

大規模言語モデル

安全性評価

2026.01.27

文献データベース

The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs

Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu | Published: 2025-06-06 | Updated: 2025-10-30

アライメント

大規模言語モデル

安全性評価

2025.06.06

文献データベース

SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models

Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Fernando Koch, Walid Saad, Holger Boche | Published: 2025-05-29 | Updated: 2025-10-27

プロンプトインジェクション

大規模言語モデル

安全性評価

2025.05.29

文献データベース