文献データベース

Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework

Authors: Junhao Li, Jiahao Chen, Zhou Feng, Chunyi Zhou | Published: 2025-11-05
ハルシネーション
プライバシー侵害
プライバシー保護

Death by a Thousand Prompts: Open Model Vulnerability Analysis

Authors: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan, Adam Swanda | Published: 2025-11-05
LLMの安全機構の解除
インダイレクトプロンプトインジェクション
脅威モデリング

Measuring the Security of Mobile LLM Agents under Adversarial Prompts from Untrusted Third-Party Channels

Authors: Chenghao Du, Quanfeng Huang, Tingxuan Tang, Zihao Wang, Adwait Nadkarni, Yue Xiao | Published: 2025-10-31 | Updated: 2025-11-06
インダイレクトプロンプトインジェクション
プロンプトインジェクション
情報セキュリティ

PVMark: Enabling Public Verifiability for LLM Watermarking Schemes

Authors: Haohua Duan, Liyao Xiang, Xin Zhang | Published: 2025-10-30
モデル抽出攻撃
公的検証可能性
透かし技術

ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models

Authors: Weifei Jin, Yuxin Cao, Junjie Su, Minhui Xue, Jie Hao, Ke Xu, Jin Song Dong, Derui Wang | Published: 2025-10-30
プロンプトインジェクション
一般化の影響
倫理基準遵守

Model Inversion Attacks Meet Cryptographic Fuzzy Extractors

Authors: Mallika Prabhakar, Louise Xu, Prateek Saxena | Published: 2025-10-29
メンバーシップ推論
モデルインバージョン
防御手法

Spectral Perturbation Bounds for Low-Rank Approximation with Applications to Privacy

Authors: Phuc Tran, Nisheeth K. Vishnoi, Van H. Vu | Published: 2025-10-29
プライバシー保護アルゴリズム
計算効率
関数境界ペア形成

Monitoring the calibration of probability forecasts with an application to concept drift detection involving image classification

Authors: Christopher T. Franck, Anne R. Driscoll, Zoe Szajnfarber, William H. Woodall | Published: 2025-10-29
キャリブレーション
制御限界
画像分類

NetEcho: From Real-World Streaming Side-Channels to Full LLM Conversation Recovery

Authors: Zheng Zhang, Guanlong Wu, Sen Deng, Shuai Wang, Yinqian Zhang | Published: 2025-10-29
ネットワークトラフィック分析
モデル抽出攻撃
防御手法

An In-Depth Analysis of Cyber Attacks in Secured Platforms

Authors: Parick Ozoh, John K Omoniyi, Bukola Ibitoye | Published: 2025-10-29
サイバー脅威
プライバシー漏洩
防御手法