LLMの安全機構の解除

Towards Privacy-Preserving LLM Inference via Collaborative Obfuscation (Technical Report)

Authors: Yu Lin, Qizhi Zhang, Wenqiang Ruan, Daode Zhang, Jue Hong, Ye Wu, Hanning Xia, Yunlong Mao, Sheng Zhong | Published: 2026-03-02

LLMの安全機構の解除

LLM性能評価

差分プライバシー

2026.03.02

文献データベース

Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

Authors: Boyang Zhang, Yang Zhang | Published: 2026-02-26

LLMの安全機構の解除

データプライバシー評価

プロンプトリーキング

2026.02.26

文献データベース

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs

Authors: Dong Yan, Jian Liang, Ran He, Tieniu Tan | Published: 2026-02-12

LLMの安全機構の解除

プライバシー保証

説明手法

2026.02.12

文献データベース

A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors

Authors: Zhenyu Xu, Victor S. Sheng | Published: 2026-02-10

LLMの安全機構の解除

LLM性能評価

評価指標

2026.02.10

文献データベース

Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning

Authors: Zhiyuan Chang, Mingyang Li, Yuekai Huang, Ziyou Jiang, Xiaojun Jia, Qian Xiong, Junjie Wang, Zhaoyang Li, Qing Wang | Published: 2026-01-08

LLMの安全機構の解除

インダイレクトプロンプトインジェクション

プライバシー保護手法

2026.01.08

文献データベース

Adversarial Contrastive Learning for LLM Quantization Attacks

Authors: Dinghong Song, Zhiwei Xu, Hai Wan, Xibin Zhao, Pengfei Su, Dong Li | Published: 2026-01-06

LLMの安全機構の解除

モデル抽出攻撃

量子化とプライバシー

2026.01.06

文献データベース

EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion

Authors: Zhen Liang, Hai Huang, Zhengkui Chen | Published: 2025-12-29

LLMの安全機構の解除

LLM活用

プロンプトインジェクション

2025.12.29

文献データベース

Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography

Authors: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao | Published: 2025-12-23

LLMの安全機構の解除

プロンプトインジェクション

マルチモーダル安全性

2025.12.23

文献データベース

Can LLMs Make (Personalized) Access Control Decisions?

Authors: Friederike Groschupp, Daniele Lain, Aritra Dhar, Lara Magdalena Lazier, Srdjan Čapkun | Published: 2025-11-25

LLMの安全機構の解除

プライバシー評価

プロンプトインジェクション

2025.11.25

文献データベース

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation

Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるプロンプト

2025.11.24

文献データベース