LLM Performance Evaluation

Towards a standardized methodology and dataset for evaluating LLM-based digital forensic timeline analysis

Authors: Hudan Studiawan, Frank Breitinger, Mark Scanlon | Published: 2025-05-06

Large Language Model

Evaluation Method

2025.05.06 2025.05.27

Literature Database

LLM-Based Threat Detection and Prevention Framework for IoT Ecosystems

Authors: Yazan Otoum, Arghavan Asad, Amiya Nayak | Published: 2025-05-01 | Updated: 2025-05-13

Bias Detection in AI Output

LLM Performance Evaluation

Prompt Injection

2025.05.01 2025.05.27

Literature Database

Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs

Authors: Pan Suo, Yu-Ming Shang, San-Chuan Guo, Xi Zhang | Published: 2025-04-30

LLM Performance Evaluation

Poisoning attack on RAG

Attack Type

2025.04.30 2025.05.27

Literature Database

Case Study: Fine-tuning Small Language Models for Accurate and Private CWE Detection in Python Code

Authors: Md. Azizul Hakim Bappy, Hossen A Mustafa, Prottoy Saha, Rajinus Salehat | Published: 2025-04-23

LLM Performance Evaluation

Training Method

Prompt leaking

2025.04.23 2025.05.27

Literature Database

aiXamine: Simplified LLM Safety and Security

Authors: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil | Published: 2025-04-21 | Updated: 2025-04-23

LLM Performance Evaluation

Alignment

Performance Evaluation

2025.04.21 2025.05.27

Literature Database

Watermarking Needs Input Repetition Masking

Authors: David Khachaturov, Robert Mullins, Ilia Shumailov, Sumanth Dathathri | Published: 2025-04-16

LLM Performance Evaluation

Prompt validation

Watermark Design

2025.04.16 2025.05.27

Literature Database

The Digital Cybersecurity Expert: How Far Have We Come?

Authors: Dawei Wang, Geng Zhou, Xianglong Li, Yu Bai, Li Chen, Ting Qin, Jian Sun, Dan Li | Published: 2025-04-16

LLM Performance Evaluation

Poisoning attack on RAG

Prompt Injection

2025.04.16 2025.05.27

Literature Database

Progent: Programmable Privilege Control for LLM Agents

Authors: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song | Published: 2025-04-16

LLM Performance Evaluation

Indirect Prompt Injection

Privacy Protection Mechanism

2025.04.16 2025.05.27

Literature Database

Exploring Backdoor Attack and Defense for LLM-empowered Recommendations

Authors: Liangbo Ning, Wenqi Fan, Qing Li | Published: 2025-04-15

LLM Performance Evaluation

Poisoning attack on RAG

Adversarial Attack Analysis

2025.04.15 2025.05.27

Literature Database

Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails

Authors: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan | Published: 2025-04-15 | Updated: 2025-04-16

LLM Performance Evaluation

Prompt Injection

Adversarial Attack Analysis

2025.04.15 2025.05.27

Literature Database