Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks Authors: Xiaodong Wu, Xiangman Li, Jianbing Ni | Published: 2025-06-23 プロンプトインジェクションモデルアーキテクチャ大規模言語モデル 2025.06.23 文献データベース
Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection Authors: Lei Yu, Zhirong Huang, Hang Yuan, Shiqi Cheng, Li Yang, Fengjun Zhang, Chenjie Shen, Jiajia Ma, Jingyuan Zhang, Junyi Lu, Chun Zuo | Published: 2025-06-23 スマートコントラクト脆弱性プロンプトリーキング大規模言語モデル 2025.06.23 文献データベース
Privacy-Preserving LLM Interaction with Socratic Chain-of-Thought Reasoning and Homomorphically Encrypted Vector Databases Authors: Yubeen Bae, Minchan Kim, Jaejin Lee, Sangbum Kim, Jaehyung Kim, Yejin Choi, Niloofar Mireshghallah | Published: 2025-06-19 | Updated: 2025-07-01 プライバシー保護プロンプトインジェクション大規模言語モデル 2025.06.19 文献データベース
Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability Authors: Shova Kuikel, Aritran Piplai, Palvi Aggarwal | Published: 2025-06-16 アライメントプロンプトインジェクション大規模言語モデル 2025.06.16 文献データベース
Weakest Link in the Chain: Security Vulnerabilities in Advanced Reasoning Models Authors: Arjun Krishna, Aaditya Rastogi, Erick Galinkin | Published: 2025-06-16 プロンプトインジェクション大規模言語モデル敵対的攻撃手法 2025.06.16 文献データベース
Can We Infer Confidential Properties of Training Data from LLMs? Authors: Penguin Huang, Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri | Published: 2025-06-12 プライバシー保護技術医療診断属性大規模言語モデル 2025.06.12 文献データベース
Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures Authors: Yukai Zhou, Sibei Yang, Wenjie Wang | Published: 2025-06-09 LLMとの協力効果サイバー脅威大規模言語モデル 2025.06.09 文献データベース
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs Authors: Songyang Liu, Chaozhuo Li, Jiameng Qiu, Xi Zhang, Feiran Huang, Litian Zhang, Yiming Hei, Philip S. Yu | Published: 2025-06-06 | Updated: 2025-10-30 アライメント大規模言語モデル安全性評価 2025.06.06 文献データベース
A Red Teaming Roadmap Towards System-Level Safety Authors: Zifan Wang, Christina Q. Knight, Jeremy Kritz, Willow E. Primack, Julian Michael | Published: 2025-05-30 | Updated: 2025-06-09 モデルDoS大規模言語モデル製品安全性 2025.05.30 文献データベース
SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Fernando Koch, Walid Saad, Holger Boche | Published: 2025-05-29 | Updated: 2025-10-27 プロンプトインジェクション大規模言語モデル安全性評価 2025.05.29 文献データベース