大規模言語モデル

FlipLLM: Efficient Bit-Flip Attacks on Multimodal LLMs using Reinforcement Learning

Authors: Khurram Khalil, Khaza Anuarul Hoque | Published: 2025-12-10
プロンプトインジェクション
大規模言語モデル
脆弱性評価手法

Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs

Authors: Yinan Zhong, Qianhao Miao, Yanjiao Chen, Jiangyi Deng, Yushi Cheng, Wenyuan Xu | Published: 2025-12-09
インダイレクトプロンプトインジェクション
プロンプトの検証
大規模言語モデル

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security

Authors: Wei Zhao, Zhe Li, Jun Sun | Published: 2025-12-04
プロンプトインジェクション
因果推論
大規模言語モデル

Benchmarking and Understanding Safety Risks in AI Character Platforms

Authors: Yiluo Wei, Peixian Zhang, Gareth Tyson | Published: 2025-12-01
キャラクターのメタデータ収集
リスク評価
大規模言語モデル

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24
プロンプトインジェクション
大規模言語モデル
悪意のあるプロンプト

Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations

Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24
倫理的考慮
大規模言語モデル
悪意のあるプロンプト

Can MLLMs Detect Phishing? A Comprehensive Security Benchmark Suite Focusing on Dynamic Threats and Multimodal Evaluation in Academic Environments

Authors: Jingzhuo Zhou | Published: 2025-11-19
プライバシーリスク管理
プロンプトインジェクション
大規模言語モデル

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18
プロンプトエンジニアリング
大規模言語モデル
悪意のあるプロンプト

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17
プロンプトインジェクション
大規模言語モデル
進化的アルゴリズム

Specification-Guided Vulnerability Detection with Large Language Models

Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li | Published: 2025-11-06
プロンプトインジェクション
大規模言語モデル
脆弱性検出手法