防御手法の統合

RedVisor: Reasoning-Aware Prompt Injection Defense via Zero-Copy KV Cache Reuse

Authors: Mingrui Liu, Sixiao Zhang, Cheng Long, Kwok-Yan Lam | Published: 2026-02-02

フレームワーク

プロンプトインジェクション

防御手法の統合

2026.02.02

文献データベース

Proactive defense against LLM Jailbreak

Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06

LLMの安全機構の解除

プロンプトインジェクション

防御手法の統合

2025.10.06

文献データベース

Unified Threat Detection and Mitigation Framework (UTDMF): Combating Prompt Injection, Deception, and Bias in Enterprise-Scale Transformers

Authors: Santhosh KumarRavindran | Published: 2025-10-06

インダイレクトプロンプトインジェクション

バイアス緩和手法

防御手法の統合

2025.10.06

文献データベース

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

Authors: Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu | Published: 2025-10-06

プロンプトインジェクション

プロンプトの検証

防御手法の統合

2025.10.06

文献データベース

UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models

Authors: Yuhao Sun, Zhuoer Xu, Shiwen Cui, Kun Yang, Lingyun Yu, Yongdong Zhang, Hongtao Xie | Published: 2025-10-02

AIシステムの関係性

学習の改善

防御手法の統合

2025.10.02

文献データベース

A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives

Authors: Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong | Published: 2025-08-20 | Updated: 2025-08-27

モデル抽出攻撃

知的財産保護

防御手法の統合

2025.08.20

文献データベース

Combining Machine Learning Defenses without Conflicts

Authors: Vasisht Duddu, Rui Zhang, N. Asokan | Published: 2024-11-14 | Updated: 2025-08-14

モデルの頑健性保証

透かし評価

防御手法の統合

2024.11.14

文献データベース