プロンプトインジェクション

GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

Authors: Yuxiao Xiang, Junchi Chen, Zhenchao Jin, Changtao Miao, Haojie Yuan, Qi Chu, Tao Gong, Nenghai Yu | Published: 2025-11-26

プロンプトインジェクション

リスク評価手法

倫理的考慮

2025.11.26

文献データベース

Can LLMs Make (Personalized) Access Control Decisions?

Authors: Friederike Groschupp, Daniele Lain, Aritra Dhar, Lara Magdalena Lazier, Srdjan Čapkun | Published: 2025-11-25

LLMの安全機構の解除

プライバシー評価

プロンプトインジェクション

2025.11.25

文献データベース

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24

プロンプトインジェクション

大規模言語モデル

悪意のあるプロンプト

2025.11.24

文献データベース

Can LLMs Threaten Human Survival? Benchmarking Potential Existential Threats from LLMs via Prefix Completion

Authors: Yu Cui, Yifei Liu, Hang Fu, Sicheng Pan, Haibin Zhang, Cong Zuo, Licheng Wang | Published: 2025-11-24

インダイレクトプロンプトインジェクション

プロンプトインジェクション

リスク評価手法

2025.11.24

文献データベース

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation

Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるプロンプト

2025.11.24

文献データベース

Small Language Models for Phishing Website Detection: Cost, Performance, and Privacy Trade-Offs

Authors: Georg Goldenits, Philip Koenig, Sebastian Raubitzek, Andreas Ekelhart | Published: 2025-11-19

フィッシング検出手法

プロンプトインジェクション

プロンプトエンジニアリング

2025.11.19

文献データベース

Can MLLMs Detect Phishing? A Comprehensive Security Benchmark Suite Focusing on Dynamic Threats and Multimodal Evaluation in Academic Environments

Authors: Jingzhuo Zhou | Published: 2025-11-19

プライバシーリスク管理

プロンプトインジェクション

大規模言語モデル

2025.11.19

文献データベース

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17

プロンプトインジェクション

大規模言語モデル

進化的アルゴリズム

2025.11.17

文献データベース

SGuard-v1: Safety Guardrail for Large Language Models

Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok | Published: 2025-11-16

プロンプトインジェクション

悪意のあるプロンプト

適応型誤用検出

2025.11.16

文献データベース

SeedAIchemy: LLM-Driven Seed Corpus Generation for Fuzzing

Authors: Aidan Wen, Norah A. Alzahrani, Jingzhi Jiang, Andrew Joe, Karen Shieh, Andy Zhang, Basel Alomair, David Wagner | Published: 2025-11-16

バグ検出手法

プロンプトインジェクション

情報セキュリティ

2025.11.16

文献データベース