AIセキュリティポータルbot | Page 3

Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4

Authors: Alex Polyakov, Daniel Kuznetsov | Published: 2026-04-21

データ毒性

Prompt leaking

Safety Alignment

2026.04.21 2026.04.23

Literature Database

Malicious ML Model Detection by Learning Dynamic Behaviors

Authors: Sarang Nambiar, Dhruv Pradhan, Ezekiel Soremekun | Published: 2026-04-21

Model Extraction Attack

Dynamic Access Control

Anomaly Detection Method

2026.04.21 2026.04.23

Literature Database

Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

Authors: Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi | Published: 2026-04-21

LLM Performance Evaluation

Prompt leaking

自動評価手法

2026.04.21 2026.04.23

Literature Database

DP-FlogTinyLLM: Differentially private federated log anomaly detection using Tiny LLMs

Authors: Isaiah Thompson, Tanmay Sen, Ritwik Bhattacharya | Published: 2026-04-21

LLM Performance Evaluation

Anomaly Detection Method

Weight Update Method

2026.04.21 2026.04.23

Literature Database

ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety

Authors: Kun Wang, Cheng Qian, Miao Yu, Lilan Peng, Liang Lin, Jiaming Zhang, Tianyu Zhang, Yu Cheng, Yang Wang | Published: 2026-04-21

Indirect Prompt Injection

データ毒性

Poisoning Attack

2026.04.21 2026.04.23

Literature Database

SAGE: Signal-Amplified Guided Embeddings for LLM-based Vulnerability Detection

Authors: Zhengyang Shan, Xu Qian, Jiayun Xin, Minghui Xu, Yue Zhang, Zhen Yang, Hao Wu, Xiuzhen Cheng | Published: 2026-04-21

LLM Performance Evaluation

Prompt Injection

Generalization Performance

2026.04.21 2026.04.23

Literature Database

Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection

Authors: Thamilvendhan Munirathinam | Published: 2026-04-20

Indirect Prompt Injection

Natural Language Processing

Defense Method

2026.04.20 2026.04.22

Literature Database

AgenTEE: Confidential LLM Agent Execution on Edge Devices

Authors: Sina Abdollahi, Mohammad M Maheri, Javad Forough, Amir Al Sadi, Josh Millar, David Kotz, Marios Kogias, Hamed Haddadi | Published: 2026-04-20

Indirect Prompt Injection

Data Protection Method

Privacy Protection Method

2026.04.20 2026.04.22

Literature Database

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Authors: Parteek Jamwal, Minghao Shao, Boyuan Chen, Achyuta Muthuvelan, Asini Subanya, Boubacar Ballo, Kashish Satija, Mariam Shafey, Mohamed Mahmoud, Moncif Dahaji Bouffi, Pasindu Wickramasinghe, Siyona Goel, Yaakulya Sabbani, Hakim Hacid, Mthandazo Ndhlovu, Eleanna Kafeza, Sanjay Rawat, Muhammad Shafique | Published: 2026-04-20

LLM Performance Evaluation

RAG

Poisoning attack on RAG

2026.04.20 2026.04.22

Literature Database

TitanCA: Lessons from Orchestrating LLM Agents to Discover 100+ CVEs

Authors: Ting Zhang, Yikun Li, Chengran Yang, Ratnadira Widyasari, Yue Liu, Ngoc Tan Bui, Phuc Thanh Nguyen, Yan Naing Tun, Ivana Clairine Irsan, Huu Hung Nguyen, Huihui Huang, Jinfeng Jiang, Lwin Khin Shar, Eng Lieh Ouh, David Lo, Hong Jin Kang, Yide Yin, Wen Bin Leow | Published: 2026-04-20

LLM Performance Evaluation

Indirect Prompt Injection

Machine Learning Application

2026.04.20 2026.04.22

Literature Database