プロンプトリーキング

Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers

Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Haoyu Gao, Zhendong Zhao, Yilong Chen | Published: 2025-10-15

バックドアモデルの検知

プロンプトリーキング

大規模言語モデル

2025.10.15

文献データベース

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems

Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang | Published: 2025-10-14

バイアス

プロンプトリーキング

大規模言語モデル

2025.10.14

文献データベース

Large Language Models Are Effective Code Watermarkers

Authors: Rui Xu, Jiawei Chen, Zhaoxia Yin, Cong Kong, Xinpeng Zhang | Published: 2025-10-13

プロンプトリーキング

ロバスト性

生成AI向け電子透かし

2025.10.13

文献データベース

TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code

Authors: Alexander Sternfeld, Andrei Kucharavy, Ljiljana Dolamic | Published: 2025-10-13

インダイレクトプロンプトインジェクション

セキュリティ分析手法

プロンプトリーキング

2025.10.13

文献データベース

Rethinking Reasoning: A Survey on Reasoning-based Backdoors in LLMs

Authors: Man Hu, Xinyi Wu, Zuofeng Suo, Jinbo Feng, Linghui Meng, Yanhao Jia, Anh Tuan Luu, Shuai Zhao | Published: 2025-10-09

プロンプトリーキング

推論に基づくバックドア攻撃

防御手法

2025.10.09

文献データベース

Untargeted Jailbreak Attack

Authors: Xinzhe Huang, Wenjing Hu, Tianhang Zheng, Kedong Xiu, Xiaojun Jia, Di Wang, Zhan Qin, Kui Ren | Published: 2025-10-03 | Updated: 2025-10-28

プロンプトインジェクション

プロンプトリーキング

防御手法の効果分析

2025.10.03

文献データベース

Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach

Authors: Xiangfang Li, Yu Wang, Bo Li | Published: 2025-10-01 | Updated: 2025-10-09

インダイレクトプロンプトインジェクション

プロンプトリーキング

防御メカニズム

2025.10.01

文献データベース

MaskSQL: Safeguarding Privacy for LLM-Based Text-to-SQL via Abstraction

Authors: Sepideh Abedini, Shubhankar Mohapatra, D. B. Emerson, Masoumeh Shafieinejad, Jesse C. Cresswell, Xi He | Published: 2025-09-27 | Updated: 2025-09-30

SQLクエリ生成

プロンプトインジェクション

プロンプトリーキング

2025.09.27

文献データベース

Enterprise AI Must Enforce Participant-Aware Access Control

Authors: Shashank Shreedhar Bhatt, Tanmay Rajore, Khushboo Aggarwal, Ganesh Ananthanarayanan, Ranveer Chandra, Nishanth Chandran, Suyash Choudhury, Divya Gupta, Emre Kiciman, Sumit Kumar Pandey, Srinath Setty, Rahul Sharma, Teijia Zhao | Published: 2025-09-18

セキュリティ分析

プライバシー管理

プロンプトリーキング

2025.09.18

文献データベース

Yet Another Watermark for Large Language Models

Authors: Siyuan Bao, Ying Shi, Zhiguang Yang, Hanzhou Wu, Xinpeng Zhang | Published: 2025-09-16

プロンプトリーキング

大規模言語モデル

透かし技術

2025.09.16

文献データベース