Evaluation Method

DeepSight: An All-in-One LM Safety Toolkit

Authors: Bo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu | Published: 2026-02-12

Prompt Injection

Large Language Model

Evaluation Method

2026.02.12 2026.02.14

Literature Database

Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models

Authors: Sri Durga Sai Sowmya Kadali, Evangelos E. Papalexakis | Published: 2026-02-12

Prompt Injection

Experimental Validation

Evaluation Method

2026.02.12 2026.02.14

Literature Database

TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection

Authors: Jian-Yu Jiang-Lin, Kang-Yang Huang, Ling Zou, Ling Lo, Sheng-Ping Yang, Yu-Wen Tseng, Kun-Hsiang Lin, Chia-Ling Chen, Yu-Ting Ta, Yan-Tsung Wang, Po-Ching Chen, Hongxia Xie, Hong-Han Shuai, Wen-Huang Cheng | Published: 2025-12-11

Detection of Hallucinations

Model DoS

Evaluation Method

2025.12.11 2025.12.13

Literature Database

LLM-Assisted AHP for Explainable Cyber Range Evaluation

Authors: Vyron Kampourakis, Georgios Kavallieratos, Georgios Spathoulas, Vasileios Gkioulos, Sokratis Katsikas | Published: 2025-12-11

XAI (Explainable AI)

Reliability Assessment

Evaluation Method

2025.12.11 2025.12.13

Literature Database

From Lab to Reality: A Practical Evaluation of Deep Learning Models and LLMs for Vulnerability Detection

Authors: Chaomeng Lu, Bert Lagaisse | Published: 2025-12-11

Certified Robustness

Calculation of Output Harmfulness

Evaluation Method

2025.12.11 2025.12.13

Literature Database

When Reject Turns into Accept: Quantifying the Vulnerability of LLM-Based Scientific Reviewers to Indirect Prompt Injection

Authors: Devanshu Sahoo, Manish Prasad, Vasudev Majhi, Jahnvi Singh, Vinay Chamola, Yash Sinha, Murari Mandal, Dhruv Kumar | Published: 2025-12-11

Indirect Prompt Injection

Adversarial Attack Analysis

Evaluation Method

2025.12.11 2025.12.13

Literature Database

RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models

Authors: Fanchao Meng, Jiaping Gui, Yunbo Li, Yue Wu | Published: 2025-10-16

Network Traffic Analysis

Backdoor Detection

Evaluation Method

2025.10.16 2025.10.18

Literature Database

Variables Ordering Optimization in Boolean Characteristic Set Method Using Simulated Annealing and Machine Learning-based Time Prediction

Authors: Minzhong Luo, Yudong Sun, Yin Long | Published: 2025-09-18

Algorithm

Optimization Methods

Evaluation Method

2025.09.18 2025.09.20

Literature Database

ATLANTIS: AI-driven Threat Localization, Analysis, and Triage Intelligence System

Authors: Taesoo Kim, HyungSeok Han, Soyeon Park, Dae R. Jeong, Dohyeok Kim, Dongkwan Kim, Eunsoo Kim, Jiho Kim, Joshua Wang, Kangsu Kim, Sangwoo Ji, Woosun Song, Hanqing Zhao, Andrew Chin, Gyejin Lee, Kevin Stevens, Mansour Alharthi, Yizhuo Zhai, Cen Zhang, Joonun Jang, Yeongjin Jang, Ammar Askar, Dongju Kim, Fabian Fleischer, Jeongin Cho, Junsik Kim, Kyungjoon Ko, Insu Yun, Sangdon Park, Dowoo Baik, Haein Lee, Hyeon Heo, Minjae Gwon, Minjae Lee, Minwoo Baek, Seunggi Min, Wonyoung Kim, Yonghwi Jin, Younggi Park, Yunjae Choi, Jinho Jung, Gwanhyun Lee, Junyoung Jang, Kyuheon Kim, Yeonghyeon Cha, Youngjoon Kim | Published: 2025-09-18

Security Analysis

バグ修正手法

Evaluation Method

2025.09.18 2025.09.20

Literature Database

LLM Jailbreak Detection for (Almost) Free!

Authors: Guorui Chen, Yifan Xia, Xiaojun Jia, Zhijiang Li, Philip Torr, Jindong Gu | Published: 2025-09-18

Large Language Model

Evaluation Method

Watermarking Technology

2025.09.18 2025.09.20

Literature Database