文献データベース

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

Authors: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia | Published: 2026-02-26

プロンプトインジェクション

大規模言語モデル

脱獄手法

2026.02.26

文献データベース

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Authors: Tian Zhang, Yiwei Xu, Juan Wang, Keyan Guo, Xiaoyang Xu, Bowen Xiao, Quanlong Guan, Jinlin Fan, Jiawei Liu, Zhiquan Liu, Hongxin Hu | Published: 2026-02-26

インダイレクトプロンプトインジェクション

カウンターファクチュアル説明

データ管理システム

2026.02.26

文献データベース

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Authors: Yanpei Guo, Wenjie Qu, Linyu Wu, Shengfang Zhai, Lionel Z. Wang, Ming Xu, Yue Liu, Binhang Yuan, Dawn Song, Jiaheng Zhang | Published: 2026-02-26

LLM性能評価

モデル評価手法

監査手法

2026.02.26

文献データベース

Layer-Targeted Multilingual Knowledge Erasure in Large Language Models

Authors: Taoran Li, Varun Chandrasekaran, Zhiyuan Yu | Published: 2026-02-26

アライメント

マシン・アンラーニング

機械学習手法

2026.02.26

文献データベース

APFuzz: Towards Automatic Greybox Protocol Fuzzing

Authors: Yu Wang, Yang Xiang, Chandra Thapa, Hajime Suzuki | Published: 2026-02-25

プロトコルファジング

プロンプトインジェクション

研究方法論

2026.02.25

文献データベース

Private and Robust Contribution Evaluation in Federated Learning

Authors: Delio Jaramillo Velez, Gergely Biczok, Alexandre Graell i Amat, Johan Ostman, Balazs Pejo | Published: 2026-02-25

プライバシー評価

貢献評価手法

連合学習

2026.02.25

文献データベース

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Authors: Zheng Gao, Xiaoyu Li, Zhicheng Bao, Xiaoyan Feng, Jiaojiao Jiang | Published: 2026-02-25

ウォーターマーキング

テキスト生成手法

機械学習技術

2026.02.25

文献データベース

The LLMbda Calculus: AI Agents, Conversations, and Information Flow

Authors: Zac Garby, Andrew D. Gordon, David Sands | Published: 2026-02-23

インダイレクトプロンプトインジェクション

セキュリティ分析手法

データ流分析

2026.02.23

文献データベース

Can You Tell It’s AI? Human Perception of Synthetic Voices in Vishing Scenarios

Authors: Zoha Hayat Bhatti, Bakhtawar Ahtisham, Seemal Tausif, Niklas George, Nida ul Habib Bajwa, Mobin Javed | Published: 2026-02-23

フィッシング

認知バイアス

音声データ処理システム

2026.02.23

文献データベース

RobPI: Robust Private Inference against Malicious Client

Authors: Jiaqi Xue, Mengxin Zheng, Qian Lou | Published: 2026-02-23

モデル抽出攻撃

敵対的学習

防御メカニズム

2026.02.23

文献データベース