LLM Safety Alignment is Divergence Estimation in Disguise Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing | Published: 2025-02-02 プロンプトインジェクション収束分析大規模言語モデル安全性アライメント 2025.02.02 2025.04.03 文献データベース
Smoothed Embeddings for Robust Language Models Authors: Ryo Hase, Md Rafi Ur Rashid, Ashley Lewis, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang | Published: 2025-01-27 プロンプトインジェクションメンバーシップ推論敵対的訓練 2025.01.27 2025.04.03 文献データベース
Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks Authors: Xin Yi, Yue Li, Linlin Wang, Xiaoling Wang, Liang He | Published: 2025-01-18 プロンプトインジェクション敵対的訓練過剰拒否緩和 2025.01.18 2025.04.03 文献データベース
Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API Authors: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes | Published: 2025-01-16 プロンプトインジェクション攻撃の評価最適化問題 2025.01.16 2025.04.03 文献データベース
A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy Authors: Huandong Wang, Wenjie Fu, Yingzhou Tang, Zhilong Chen, Yuxi Huang, Jinghua Piao, Chen Gao, Fengli Xu, Tao Jiang, Yong Li | Published: 2025-01-16 サーベイ論文プライバシー保護プロンプトインジェクション大規模言語モデル 2025.01.16 2025.04.03 文献データベース
Unveiling Provider Bias in Large Language Models for Code Generation Authors: Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Qingshuang Bao, Weipeng Jiang, Chao Shen, Yang Liu | Published: 2025-01-14 コード生成バイアスプロンプトインジェクション 2025.01.14 2025.04.03 文献データベース
Automating the Detection of Code Vulnerabilities by Analyzing GitHub Issues Authors: Daniele Cipollone, Changjie Wang, Mariano Scazzariello, Simone Ferlin, Maliheh Izadi, Dejan Kostic, Marco Chiesa | Published: 2025-01-09 LLM性能評価プロンプトインジェクション脆弱性管理 2025.01.09 2025.04.03 文献データベース
SpaLLM-Guard: Pairing SMS Spam Detection Using Open-source and Commercial LLMs Authors: Muhammad Salman, Muhammad Ikram, Nardine Basta, Mohamed Ali Kaafar | Published: 2025-01-09 LLM性能評価プロンプトインジェクション学習の改善 2025.01.09 2025.04.03 文献データベース
Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency Authors: Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei | Published: 2025-01-09 テキストシャッフル不整合プロンプトインジェクション攻撃手法 2025.01.09 2025.04.03 文献データベース
Exploring Large Language Models for Semantic Analysis and Categorization of Android Malware Authors: Brandon J Walton, Mst Eshita Khatun, James M Ghawaly, Aisha Ali-Gombe | Published: 2025-01-08 プロンプトインジェクションプロンプトエンジニアリングマルウェア分類 2025.01.08 2025.04.03 文献データベース