プロンプトインジェクション

Can LLMs Make (Personalized) Access Control Decisions?

Authors: Friederike Groschupp, Daniele Lain, Aritra Dhar, Lara Magdalena Lazier, Srdjan Čapkun | Published: 2025-11-25
LLMの安全機構の解除
プライバシー評価
プロンプトインジェクション

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24
プロンプトインジェクション
大規模言語モデル
悪意のあるプロンプト

Can LLMs Threaten Human Survival? Benchmarking Potential Existential Threats from LLMs via Prefix Completion

Authors: Yu Cui, Yifei Liu, Hang Fu, Sicheng Pan, Haibin Zhang, Cong Zuo, Licheng Wang | Published: 2025-11-24
インダイレクトプロンプトインジェクション
プロンプトインジェクション
リスク評価手法

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation

Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24
LLMの安全機構の解除
プロンプトインジェクション
悪意のあるプロンプト

Small Language Models for Phishing Website Detection: Cost, Performance, and Privacy Trade-Offs

Authors: Georg Goldenits, Philip Koenig, Sebastian Raubitzek, Andreas Ekelhart | Published: 2025-11-19
フィッシング検出手法
プロンプトインジェクション
プロンプトエンジニアリング

Can MLLMs Detect Phishing? A Comprehensive Security Benchmark Suite Focusing on Dynamic Threats and Multimodal Evaluation in Academic Environments

Authors: Jingzhuo Zhou | Published: 2025-11-19
プライバシーリスク管理
プロンプトインジェクション
大規模言語モデル

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17
プロンプトインジェクション
大規模言語モデル
進化的アルゴリズム

SGuard-v1: Safety Guardrail for Large Language Models

Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok | Published: 2025-11-16
プロンプトインジェクション
悪意のあるプロンプト
適応型誤用検出

SeedAIchemy: LLM-Driven Seed Corpus Generation for Fuzzing

Authors: Aidan Wen, Norah A. Alzahrani, Jingzhi Jiang, Andrew Joe, Karen Shieh, Andy Zhang, Basel Alomair, David Wagner | Published: 2025-11-16
バグ検出手法
プロンプトインジェクション
情報セキュリティ

Specification-Guided Vulnerability Detection with Large Language Models

Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li | Published: 2025-11-06
プロンプトインジェクション
大規模言語モデル
脆弱性検出手法