AIセキュリティポータルbot | Page 13

EVA: Editing for Versatile Alignment against Jailbreaks

Authors: Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang | Published: 2026-05-14

LLM Security

Model DoS

安全性に関連するマルチモーダルなアプローチ

2026.05.14 2026.05.16

Literature Database

Defenses at Odds: Measuring and Explaining Defense Conflicts in Large Language Models

Authors: Xiangtao Meng, Wenyu Chen, Chuanchao Zang, Xinyu Gao, Jianing Wang, Li Wang, Zheng Li, Shanqing Guo | Published: 2026-05-14

Bias Detection in AI Output

Data Protection Method

Model DoS

2026.05.14 2026.05.16

Literature Database

Exploiting LLM Agent Supply Chains via Payload-less Skills

Authors: Xinyu Liu, Yukai Zhao, Xing Hu, Xin Xia | Published: 2026-05-14

LLM Security

Indirect Prompt Injection

Attack Method

2026.05.14 2026.05.16

Literature Database

Watermarking Game-Playing Agents in Perfect-Information Extensive-Form Games

Authors: Juho Kim, Fei Fang, Tuomas Sandholm | Published: 2026-05-14

Digital Watermarking for Generative AI

Behavior Analysis Method

Watermark Design

2026.05.14 2026.05.16

Literature Database

Identifying AI Web Scrapers Using Canary Tokens

Authors: Steven Seiden, Triss Ren, Caroline Zhang, Taein Kim, Enze Liu, Emily Wenger | Published: 2026-05-13

LLM Security

Data Extraction and Analysis

User Behavior Analysis

2026.05.13 2026.05.15

Literature Database

Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution

Authors: Xiaozhe Zhang, Chaozhuo Li, Hui Liu, Shaocheng Yan, Bingyu Yan, Qiwei Ye, Haoliang Li | Published: 2026-05-13

Disabling Safety Mechanisms of LLM

Alignment

Behavior Analysis Method

2026.05.13 2026.05.15

Literature Database

Empowering IoT Security: On-Device Intrusion Detection in Resource Constrained Devices

Authors: Vasilis Ieropoulos, Eirini Anthi, Theodoros Spyridopoulos, Pete Burnap, Aftab Khan, Pietro Carnelli | Published: 2026-05-13

IoT Cybersecurity

Data Protection Method

Machine Learning Application

2026.05.13 2026.05.15

Literature Database

Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis

Authors: Zvi Topol | Published: 2026-05-13

LLM Security

Prompt Injection

Behavior Analysis Method

2026.05.13 2026.05.15

Literature Database

Persona-Model Collapse in Emergent Misalignment

Authors: Davi Bastos Costa, Renato Vicente | Published: 2026-05-13

Dataset evaluation

User Behavior Analysis

Behavior Analysis Method

2026.05.13 2026.05.15

Literature Database

HE-PIM: Demystifying Homomorphic Operations on a Real-world Processing-in-Memory System

Authors: Harshita Gupta, Mayank Kabra, Jaewoo Park, Priyam Mehta, Phillip Widdowson, Tathagata Barik, Nisa Bostancı, Konstantinos Kanellopoulos, Juan Gómez-Luna, Antonio J. Peña, Mohammad Sadrosadati, Onur Mutlu | Published: 2026-05-13

Efficiency Evaluation

Computational Complexity

Watermark Design

2026.05.13 2026.05.15

Literature Database