Enhancing Robustness of Graph Neural Networks through p-Laplacian Authors: Anuj Kumar Sirohi, Subhanu Halder, Kabir Kumar, Sandeep Kumar | Published: 2024-09-27 最適化問題防御手法 2024.09.27 2025.04.03 文献データベース
System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective Authors: Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao | Published: 2024-09-27 | Updated: 2024-10-10 LLMセキュリティプロンプトインジェクション実行トレースの妨害 2024.09.27 2025.04.03 文献データベース
Evading Toxicity Detection with ASCII-art: A Benchmark of Spatial Attacks on Moderation Systems Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi | Published: 2024-09-27 | Updated: 2025-09-24 トークン圧縮フレームワークプロンプトリーキング自然言語処理 2024.09.27 文献データベース
Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning Authors: Arshiya Khan, Guannan Liu, Xing Gao | Published: 2024-09-27 | Updated: 2025-06-11 コード脆弱性修復セキュリティコンテキスト統合大規模言語モデル 2024.09.27 文献データベース
An Adversarial Perspective on Machine Unlearning for AI Safety Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando | Published: 2024-09-26 | Updated: 2025-04-10 プロンプトインジェクション安全性アライメント機械学習の忘却 2024.09.26 文献データベース
Weak-to-Strong Backdoor Attack for Large Language Models Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan | Published: 2024-09-26 | Updated: 2024-10-13 バックドア攻撃プロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks Authors: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Mark Purcell | Published: 2024-09-26 | Updated: 2024-10-04 ガードレール手法コンテンツモデレーションプロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
A novel application of Shapley values for large multidimensional time-series data: Applying explainable AI to a DNA profile classification neural network Authors: Lauren Elborough, Duncan Taylor, Melissa Humphries | Published: 2024-09-26 アルゴリズムウォーターマーキング評価手法 2024.09.26 2025.04.03 文献データベース
Multi-Designated Detector Watermarking for Language Models Authors: Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu | Published: 2024-09-26 | Updated: 2024-10-01 LLMセキュリティウォーターマーキング透かし評価 2024.09.26 2025.04.03 文献データベース
The poison of dimensionality Authors: Lê-Nguyên Hoang | Published: 2024-09-25 ポイズニングモデル性能評価損失関数 2024.09.25 2025.04.03 文献データベース