大規模言語モデル

AttestLLM: Efficient Attestation Framework for Billion-scale On-device LLMs

Authors: Ruisi Zhang, Yifei Zhao, Neusha Javidnia, Mengxin Zheng, Farinaz Koushanfar | Published: 2025-09-08

セキュリティ戦略生成

効率評価

大規模言語モデル

2025.09.08

文献データベース

VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities

Authors: Weizhe Wang, Wei Ma, Qiang Hu, Yao Zhang, Jianfei Sun, Bin Wu, Yang Liu, Guangquan Xu, Lingxiao Jiang | Published: 2025-09-03

プロンプトインジェクション

大規模言語モデル

脆弱性分析

2025.09.03

文献データベース

Safety Alignment Should Be Made More Than Just A Few Attention Heads

Authors: Chao Huang, Zefeng Zhang, Juewei Yue, Quangang Li, Chuang Zhang, Tingwen Liu | Published: 2025-08-27

プロンプトインジェクション

大規模言語モデル

注意メカニズム

2025.08.27

文献データベース

Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs

Authors: Yu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, zhifei zheng, Min Liu, Zhiyi yin, Jianping Zhang | Published: 2025-08-22 | Updated: 2025-09-15

プライバシー評価

倫理基準遵守

大規模言語モデル

2025.08.22

文献データベース

MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols

Authors: Yixuan Yang, Daoyuan Wu, Yufan Chen | Published: 2025-08-17 | Updated: 2025-10-09

プロンプトリーキング

大規模言語モデル

防御メカニズム

2025.08.17

文献データベース

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu | Published: 2025-08-14

ソーシャルエンジニアリング攻撃

プロンプトインジェクション

大規模言語モデル

2025.08.14

文献データベース

EditMF: Drawing an Invisible Fingerprint for Your Large Language Models

Authors: Jiaxuan Wu, Yinghan Zhou, Wanli Peng, Yiming Xue, Juan Wen, Ping Zhong | Published: 2025-08-12

大規模言語モデル

著者帰属手法

透かし設計

2025.08.12

文献データベース

Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs

Authors: Maria Camporese, Fabio Massacci | Published: 2025-07-28

プロンプトインジェクション

大規模言語モデル

脆弱性管理

2025.07.28

文献データベース

ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning

Authors: Zhengyue Zhao, Yingzi Ma, Somesh Jha, Marco Pavone, Patrick McDaniel, Chaowei Xiao | Published: 2025-07-14 | Updated: 2025-10-20

大規模言語モデル

安全性分析

評価基準

2025.07.14

文献データベース

GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing

Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10

プロンプトの検証

大規模言語モデル

性能評価指標

2025.07.10

文献データベース