文献データベース

Sparse Models, Sparse Safety: Unsafe Routes in Mixture-of-Experts LLMs

Authors: Yukun Jiang, Hai Huang, Mingjie Li, Yage Zhang, Michael Backes, Yang Zhang | Published: 2026-02-09
スパース性防御
プロンプトインジェクション
安全性分析

On Protecting Agentic Systems’ Intellectual Property via Watermarking

Authors: Liwen Wang, Zongjie Li, Yuchong Xie, Shuai Wang, Dongdong She, Wei Wang, Juergen Rahmel | Published: 2026-02-09
ウォーターマーキング
エージェントシステムの透かし技術
生成AI向け電子透かし

Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4

Authors: Jianyu Zhang, Fuyuan Zhang, Jiayi Lu, Jilin Hu, Xiaoyi Yin, Long Zhang, Feng Yang, Yongwang Zhao | Published: 2026-02-09
LLM性能評価
プログラム理解
透明性と検証

InfiCoEvalChain: A Blockchain-Based Decentralized Framework for Collaborative LLM Evaluation

Authors: Yifan Yang, Jinjia Li, Kunxi Li, Puhao Zheng, Yuanyi Wang, Zheyan Qu, Yang Yu, Jianmin Wu, Ming Li, Hongxia Yang | Published: 2026-02-09
LLM性能評価
インセンティブメカニズム
モデル評価手法

Deep Learning for Contextualized NetFlow-Based Network Intrusion Detection: Methods, Data, Evaluation and Deployment

Authors: Abdelkader El Mahdaouy, Issam Ait Yahia, Soufiane Oualil, Ismail Berrada | Published: 2026-02-05
グラフニューラルネットワーク
ストリーミング状態管理
異常検知

Clouding the Mirror: Stealthy Prompt Injection Attacks Targeting LLM-based Phishing Detection

Authors: Takashi Koide, Hiroki Nakano, Daiki Chiba | Published: 2026-02-05
インダイレクトプロンプトインジェクション
フィッシング検出手法
プロンプトインジェクション

BadTemplate: A Training-Free Backdoor Attack via Chat Template Against Large Language Models

Authors: Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Guowen Xu | Published: 2026-02-05
LLM性能評価
データ毒性
大規模言語モデル

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Authors: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang | Published: 2026-02-05
セキュリティメトリック
攻撃手法の説明
毒性攻撃に特化した内容

SynAT: Enhancing Security Knowledge Bases via Automatic Synthesizing Attack Tree from Crowd Discussions

Authors: Ziyou Jiang, Lin Shi, Guowei Yang, Xuyan Ma, Fenglong Li, Qing Wang | Published: 2026-02-05
LLM性能評価
データ生成の安全性
攻撃ツリー合成

Hallucination-Resistant Security Planning with a Large Language Model

Authors: Kim Hammar, Tansu Alpcan, Emil Lupu | Published: 2026-02-05
LLM性能評価
ハルシネーション
ハルシネーションの検知