Literature Database

From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses

Authors: Xiangtao Meng, Tianshuo Cong, Li Wang, Wenyu Chen, Zheng Li, Shanqing Guo, Xiaoyun Wang | Published: 2025-10-09

Alignment

Indirect Prompt Injection

Defense Effectiveness Analysis

2025.10.09 2025.10.11

Literature Database

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

Authors: Weisen Jiang, Sinno Jialin Pan | Published: 2025-10-09

Prompt Injection

Robustness

Defense Mechanism

2025.10.09 2025.10.11

Literature Database

Rethinking Reasoning: A Survey on Reasoning-based Backdoors in LLMs

Authors: Man Hu, Xinyi Wu, Zuofeng Suo, Jinbo Feng, Linghui Meng, Yanhao Jia, Anh Tuan Luu, Shuai Zhao | Published: 2025-10-09

Prompt leaking

推論に基づくバックドア攻撃

Defense Method

2025.10.09 2025.10.11

Literature Database

Proactive defense against LLM Jailbreak

Authors: Weiliang Zhao, Jinjun Peng, Daniel Ben-Levi, Zhou Yu, Junfeng Yang | Published: 2025-10-06

Disabling Safety Mechanisms of LLM

Prompt Injection

防御手法の統合

2025.10.06 2025.10.08

Literature Database

What your brain activity says about you: A review of neuropsychiatric disorders identified in resting-state and sleep EEG data

Authors: J. E. M. Scanlon, A. Pelzer, M. Gharleghi, K. C. Fuhrmeister, T. Köllmer, P. Aichroth, R. Göder, C. Hansen, K. I. Wolf | Published: 2025-10-06

Privacy-Preserving Machine Learning

Signal Processing

医療診断属性

2025.10.06 2025.10.08

Literature Database

Federated Computation of ROC and PR Curves

Authors: Xuefeng Xu, Graham Cormode | Published: 2025-10-06

Trade-off Analysis

Privacy-Preserving Machine Learning

Approximation Error of Negative Inputs

2025.10.06 2025.10.08

Literature Database

Unified Threat Detection and Mitigation Framework (UTDMF): Combating Prompt Injection, Deception, and Bias in Enterprise-Scale Transformers

Authors: Santhosh KumarRavindran | Published: 2025-10-06

Indirect Prompt Injection

Bias Mitigation Techniques

防御手法の統合

2025.10.06 2025.10.08

Literature Database

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

Authors: Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu | Published: 2025-10-06

Prompt Injection

Prompt validation

防御手法の統合

2025.10.06 2025.10.08

Literature Database

Autonomy Matters: A Study on Personalization-Privacy Dilemma in LLM Agents

Authors: Zhiping Zhang, Yi Evie Zhang, Freda Shi, Tianshi Li | Published: 2025-10-06

Indirect Prompt Injection

Privacy-Preserving Machine Learning

User Activity Analysis

2025.10.06 2025.10.08

Literature Database

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche | Published: 2025-10-03 | Updated: 2025-10-15

Identification of AI Output

Robustness

Large Language Model

2025.10.03 2025.10.17

Literature Database