From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses Authors: Xiangtao Meng, Tianshuo Cong, Li Wang, Wenyu Chen, Zheng Li, Shanqing Guo, Xiaoyun Wang | Published: 2025-10-09 アライメントインダイレクトプロンプトインジェクション防御効果分析 2025.10.09 文献データベース
Investigating Security Implications of Automatically Generated Code on the Software Supply Chain Authors: Xiaofan Li, Xing Gao | Published: 2025-09-24 アライメントインダイレクトプロンプトインジェクション脆弱性研究 2025.09.24 文献データベース
Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability Authors: Shova Kuikel, Aritran Piplai, Palvi Aggarwal | Published: 2025-06-16 アライメントプロンプトインジェクション大規模言語モデル 2025.06.16 文献データベース
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng | Published: 2025-06-14 | Updated: 2025-09-30 アライメント倫理声明悪意のあるプロンプト 2025.06.14 文献データベース
Client-Side Zero-Shot LLM Inference for Comprehensive In-Browser URL Analysis Authors: Avihay Cohen | Published: 2025-06-04 アライメントプロンプトインジェクション動的分析 2025.06.04 文献データベース
MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment Authors: John Halloran | Published: 2025-05-29 RAGへのポイズニング攻撃アライメント料理材料 2025.05.29 文献データベース
Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion Authors: Chunlong Xie, Jialing He, Shangwei Guo, Jiacheng Wang, Shudong Zhang, Tianwei Zhang, Tao Xiang | Published: 2025-05-29 アライメント敵対的オブジェクト生成最適化手法 2025.05.29 文献データベース
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22 LLMセキュリティアライメント敵対的学習 2025.05.22 文献データベース
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22 アライメントインダイレクトプロンプトインジェクション出力の有害度の算出 2025.05.22 文献データベース
ReCopilot: Reverse Engineering Copilot in Binary Analysis Authors: Guoqiang Chen, Huiqi Sun, Daguang Liu, Zhiqi Wang, Qiang Wang, Bin Yin, Lu Liu, Lingyun Ying | Published: 2025-05-22 アライメントバイナリ分析動的分析 2025.05.22 文献データベース