プロンプトリーキング

Scaling up Privacy-Preserving ML: A CKKS Implementation of Llama-2-7B

Authors: Jaiyoung Park, Sejin Park, Jai Hyun Park, Jung Ho Ahn, Jung Hee Cheon, Guillaume Hanrot, Jung Woo Kim, Minje Park, Damien Stehlé | Published: 2026-01-26
LLM活用
プロンプトリーキング
線形代数最適化

HardSecBench: Benchmarking the Security Awareness of LLMs for Hardware Code Generation

Authors: Qirui Chen, Jingxian Shuai, Shuangwu Chen, Shenghao Ye, Zijian Wen, Xufei Su, Jie Jin, Jiangming Li, Jun Chen, Xiaobin Tan, Jian Yang | Published: 2026-01-20
コード生成手法
セキュリティ保証
プロンプトリーキング

Defenses Against Prompt Attacks Learn Surface Heuristics

Authors: Shawn Li, Chenxiao Yu, Zhiyu Ni, Hao Li, Charith Peris, Chaowei Xiao, Yue Zhao | Published: 2026-01-12
プロンプトリーキング
性能評価
敵対的攻撃分析

Securing the AI Supply Chain: What Can We Learn From Developer-Reported Security Issues and Solutions of AI Projects?

Authors: The Anh Nguyen, Triet Huynh Minh Le, M. Ali Babar | Published: 2025-12-29
セキュリティ分析手法
データ駆動型脆弱性評価
プロンプトリーキング

GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

Authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi | Published: 2025-12-24
スパースモデル
プロンプトリーキング
安全性に関連するマルチモーダルなアプローチ

ChatGPT: Excellent Paper! Accept It. Editor: Imposter Found! Review Rejected

Authors: Kanchon Gharami, Sanjiv Kumar Sarkar, Yongxin Liu, Shafika Showkat Moni | Published: 2025-12-23
プロンプトリーキング
モデル抽出攻撃
敵対的攻撃評価

From Retrieval to Reasoning: A Framework for Cyber Threat Intelligence NER with Explicit and Adaptive Instructions

Authors: Jiaren Peng, Hongda Sun, Xuan Tian, Cheng Huang, Zeqing Li, Rui Yan | Published: 2025-12-22
RAG
データ選択戦略
プロンプトリーキング

Prefix Probing: Lightweight Harmful Content Detection for Large Language Models

Authors: Jirui Yang, Hengqi Guo, Zhihui Lu, Yi Zhao, Yuansen Zhang, Shijing Hu, Qiang Duan, Yinggui Wang, Tao Wei | Published: 2025-12-18
トークン分布分析
プロンプトインジェクション
プロンプトリーキング

In-Context Probing for Membership Inference in Fine-Tuned Language Models

Authors: Zhexi Lu, Hongliang Chi, Nathalie Baracaldo, Swanand Ravindra Kadhe, Yuseok Jeon, Lei Yu | Published: 2025-12-18
AIによる出力のバイアスの検出
プライバシー保護機械学習
プロンプトリーキング

ContextLeak: Auditing Leakage in Private In-Context Learning Methods

Authors: Jacob Choi, Shuying Cao, Xingjian Dong, Wang Bill Zhu, Robin Jia, Sai Praneeth Karimireddy | Published: 2025-12-18
データ漏洩
プライバシー保護機械学習
プロンプトリーキング