LLM性能評価

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

Authors: Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao | Published: 2024-02-07 | Updated: 2024-06-07

LLMセキュリティ

LLM性能評価

プロンプトインジェクション

2024.02.07 2025.04.03

文献データベース

Ocassionally Secure: A Comparative Analysis of Code Generation Assistants

Authors: Ran Elgedawy, John Sadik, Senjuti Dutta, Anuj Gautam, Konstantinos Georgiou, Farzin Gholamrezae, Fujiao Ji, Kyungchan Lim, Qian Liu, Scott Ruoti | Published: 2024-02-01

LLM性能評価

コード生成

プロンプトインジェクション

2024.02.01 2025.04.03

文献データベース

LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs’ Vulnerability Reasoning

Authors: Yuqiang Sun, Daoyuan Wu, Yue Xue, Han Liu, Wei Ma, Lyuye Zhang, Yang Liu, Yingjiu Li | Published: 2024-01-29 | Updated: 2025-01-13

LLM性能評価

プロンプトインジェクション

脆弱性管理

2024.01.29 2025.04.03

文献データベース

Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness

Authors: Samaneh Shafee, Alysson Bessani, Pedro M. Ferreira | Published: 2024-01-26 | Updated: 2024-04-19

LLM性能評価

サイバーセキュリティ

プロンプトインジェクション

2024.01.26 2025.04.03

文献データベース

BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models

Authors: Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, Bo Li | Published: 2024-01-20

LLM性能評価

バックドア攻撃

プロンプトインジェクション

2024.01.20 2025.04.03

文献データベース

LLM4Fuzz: Guided Fuzzing of Smart Contracts with Large Language Models

Authors: Chaofan Shou, Jing Liu, Doudou Lu, Koushik Sen | Published: 2024-01-20

LLM性能評価

スマートコントラクト

プログラム解析

2024.01.20 2025.04.03

文献データベース

LLbezpeky: Leveraging Large Language Models for Vulnerability Detection

Authors: Noble Saji Mathews, Yelizaveta Brus, Yousra Aafer, Meiyappan Nagappan, Shane McIntosh | Published: 2024-01-02 | Updated: 2024-02-13

LLM性能評価

プロンプトインジェクション

脆弱性管理

2024.01.02 2025.04.03

文献データベース

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

Authors: Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang | Published: 2024-01-01

LLM性能評価

データセット生成

プロンプトインジェクション

2024.01.01 2025.04.03

文献データベース

SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security

Authors: Zefang Liu | Published: 2023-12-26

LLM性能評価

サイバーセキュリティ

プロンプトインジェクション

2023.12.26 2025.04.03

文献データベース

Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models

Authors: Xin Jin, Jonathan Larson, Weiwei Yang, Zhiqiang Lin | Published: 2023-12-15

LLM性能評価

プログラム解析

プロンプトインジェクション

2023.12.15 2025.04.03

文献データベース