AIセキュリティポータルbot

SGuard-v1: Safety Guardrail for Large Language Models

Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok | Published: 2025-11-16
プロンプトインジェクション
悪意のあるプロンプト
適応型誤用検出

SeedAIchemy: LLM-Driven Seed Corpus Generation for Fuzzing

Authors: Aidan Wen, Norah A. Alzahrani, Jingzhi Jiang, Andrew Joe, Karen Shieh, Andy Zhang, Basel Alomair, David Wagner | Published: 2025-11-16
バグ検出手法
プロンプトインジェクション
情報セキュリティ

GRAPHTEXTACK: A Realistic Black-Box Node Injection Attack on LLM-Enhanced GNNs

Authors: Jiaji Ma, Puja Trivedi, Danai Koutra | Published: 2025-11-16
RAGへのポイズニング攻撃
悪意のある行為者の分類
情報セキュリティ

The ‘Sure’ Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models

Authors: Yuting Tan, Yi Huang, Zhuo Li | Published: 2025-11-16
トリガーの検知
バックドアモデルの検知
バックドア攻撃

Large Language Models for Cyber Security

Authors: Raunak Somani, Aswani Kumar Cherukuri | Published: 2025-11-06
RAGへのポイズニング攻撃
インダイレクトプロンプトインジェクション
情報セキュリティ

Adversarially Robust and Interpretable Magecart Malware Detection

Authors: Pedro Pereira, José Gouveia, João Vitorino, Eva Maia, Isabel Praça | Published: 2025-11-06
動的分析
敵対的学習
解釈可能性

Differentially Private In-Context Learning with Nearest Neighbor Search

Authors: Antti Koskela, Tejas Kulkarni, Laith Zumot | Published: 2025-11-06
プライバシー保護
プライバシー保護フレームワーク
選択手法

Black-Box Guardrail Reverse-engineering Attack

Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang | Published: 2025-11-06
LLMの安全機構の解除
プロンプトリーキング
情報セキュリティ

Automated and Explainable Denial of Service Analysis for AI-Driven Intrusion Detection Systems

Authors: Paul Badu Yakubu, Lesther Santana, Mohamed Rahouti, Yufeng Xin, Abdellah Chehri, Mohammed Aledhari | Published: 2025-11-06
トラフィック特性分析
モデルDoS
特徴重要性分析

Specification-Guided Vulnerability Detection with Large Language Models

Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li | Published: 2025-11-06
プロンプトインジェクション
大規模言語モデル
脆弱性検出手法