LLM Performance Evaluation

From Generalist to Specialist: Exploring CWE-Specific Vulnerability Detection

Authors: Syafiq Al Atiiq, Christian Gehrmann, Kevin Dahlén, Karim Khalil | Published: 2024-08-05

Model Performance Evaluation

Vulnerability Management

2024.08.05 2025.05.27

Literature Database

LLM as Runtime Error Handler: A Promising Pathway to Adaptive Self-Healing of Software Systems

Authors: Zhensu Sun, Haotian Zhu, Bowen Xu, Xiaoning Du, Li Li, David Lo | Published: 2024-08-02

LLM Performance Evaluation

Program Analysis

Self-Healing System

2024.08.02 2025.05.27

Literature Database

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory

Authors: Wei Fan, Haoran Li, Zheye Deng, Weiqi Wang, Yangqiu Song | Published: 2024-06-17 | Updated: 2024-10-04

LLM Performance Evaluation

Privacy Protection Method

Prompt Injection

2024.06.17 2025.05.27

Literature Database

LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing

Authors: Hongxiang Zhang, Yuyang Rong, Yifeng He, Hao Chen | Published: 2024-06-11 | Updated: 2024-06-13

LLM Performance Evaluation

Fuzzing

Prompt Injection

2024.06.11 2025.05.27

Literature Database

Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis

Authors: Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi | Published: 2024-06-11 | Updated: 2024-09-06

LLM Performance Evaluation

RAG

Risk Management

2024.06.11 2025.05.27

Literature Database

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

Authors: Yu Liu, Lang Gao, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang, Wei Chen | Published: 2024-06-11 | Updated: 2024-08-21

LLM Performance Evaluation

Model Performance Evaluation

Vulnerability Management

2024.06.11 2025.05.27

Literature Database

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

Authors: Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang | Published: 2024-06-11 | Updated: 2024-06-13

LLM Performance Evaluation

Dataset Generation

Evaluation Method

2024.06.11 2025.05.27

Literature Database

Ollabench: Evaluating LLMs’ Reasoning for Human-centric Interdependent Cybersecurity

Authors: Tam n. Nguyen | Published: 2024-06-11

LLM Performance Evaluation

Cybersecurity

Evaluation Method

2024.06.11 2025.05.27

Literature Database

SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection

Authors: Sakshi Mahendru, Tejul Pandit | Published: 2024-06-10

LLM Performance Evaluation

Phishing Detection

Prompt Injection

2024.06.10 2025.05.27

Literature Database

A Novel Generative AI-Based Framework for Anomaly Detection in Multicast Messages in Smart Grid Communications

Authors: Aydin Zaboli, Seong Lok Choi, Tai-Jin Song, Junho Hong | Published: 2024-06-08

LLM Performance Evaluation

Cybersecurity

Anomaly Detection Method

2024.06.08 2025.05.27

Literature Database