Weak-to-Strong Backdoor Attack for Large Language Models Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan | Published: 2024-09-26 | Updated: 2024-10-13 バックドア攻撃プロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks Authors: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Mark Purcell | Published: 2024-09-26 | Updated: 2024-10-04 ガードレール手法コンテンツモデレーションプロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
A novel application of Shapley values for large multidimensional time-series data: Applying explainable AI to a DNA profile classification neural network Authors: Lauren Elborough, Duncan Taylor, Melissa Humphries | Published: 2024-09-26 アルゴリズムウォーターマーキング評価手法 2024.09.26 2025.04.03 文献データベース
Multi-Designated Detector Watermarking for Language Models Authors: Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu | Published: 2024-09-26 | Updated: 2024-10-01 LLMセキュリティウォーターマーキング透かし評価 2024.09.26 2025.04.03 文献データベース
The poison of dimensionality Authors: Lê-Nguyên Hoang | Published: 2024-09-25 ポイズニングモデル性能評価損失関数 2024.09.25 2025.04.03 文献データベース
SDBA: A Stealthy and Long-Lasting Durable Backdoor Attack in Federated Learning Authors: Minyeong Choe, Cheolhee Park, Changho Seo, Hyunil Kim | Published: 2024-09-23 | Updated: 2025-07-30 バックドア攻撃ポイズニング透かしの耐久性 2024.09.23 文献データベース
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method Authors: Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng | Published: 2024-09-23 | Updated: 2025-04-01 LLMの安全機構の解除モデル性能評価情報抽出 2024.09.23 2025.04.03 文献データベース
Order of Magnitude Speedups for LLM Membership Inference Authors: Rongting Zhang, Martin Bertran, Aaron Roth | Published: 2024-09-22 | Updated: 2024-09-24 LLMセキュリティメンバーシップ推論低コストのメンバシップ推論手法 2024.09.22 2025.04.03 文献データベース
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach Authors: Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li | Published: 2024-09-21 | Updated: 2024-10-03 LLM性能評価プロンプトインジェクション 2024.09.21 2025.04.03 文献データベース
Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm Authors: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin | Published: 2024-09-21 | Updated: 2024-10-06 バックドア攻撃モデル性能評価防御手法 2024.09.21 2025.04.03 文献データベース