TextGuard: Provable Defense against Backdoor Attacks on Text Classification Authors: Hengzhi Pei, Jinyuan Jia, Wenbo Guo, Bo Li, Dawn Song | Published: 2023-11-19 | Updated: 2023-11-25 テキスト生成手法バックドア攻撃ポイズニング 2023.11.19 2025.04.03 文献データベース
Secure Software Development: Issues and Challenges Authors: Sam Wen Ping, Jeffrey Cheok Jun Wah, Lee Wen Jie, Jeremy Bong Yong Han, Saira Muzafar | Published: 2023-11-18 セキュリティ保証ソフトウェアセキュリティリソース不足の課題 2023.11.18 2025.04.03 文献データベース
From Principle to Practice: Vertical Data Minimization for Machine Learning Authors: Robin Staab, Nikola Jovanović, Mislav Balunović, Martin Vechev | Published: 2023-11-17 | Updated: 2023-11-22 データ管理システムプライバシー保護評価手法 2023.11.17 2025.04.03 文献データベース
FedTruth: Byzantine-Robust and Backdoor-Resilient Federated Learning Framework Authors: Sheldon C. Ebron Jr., Kan Yang | Published: 2023-11-17 モデルアーキテクチャ攻撃手法評価手法 2023.11.17 2025.04.03 文献データベース
You Cannot Escape Me: Detecting Evasions of SIEM Rules in Enterprise Networks Authors: Rafael Uetz, Marco Herzog, Louis Hackländer, Simon Schwarz, Martin Henze | Published: 2023-11-16 | Updated: 2023-12-19 ルール帰属攻撃手法適応型誤用検出 2023.11.16 2025.04.03 文献データベース
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring Authors: Yuhang Li, Yihan Wang, Zhouxing Shi, Cho-Jui Hsieh | Published: 2023-11-16 トークン収集手法学習の改善深層学習手法 2023.11.16 2025.04.03 文献データベース
Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework Authors: Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si | Published: 2023-11-16 | Updated: 2024-08-18 プロンプトインジェクション多言語LLMジャイルブレイク敵対的攻撃 2023.11.16 2025.04.03 文献データベース
Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections Authors: Yuanpu Cao, Bochuan Cao, Jinghui Chen | Published: 2023-11-15 | Updated: 2024-06-09 バックドア攻撃プロンプトインジェクション 2023.11.15 2025.04.03 文献データベース
HAL 9000: Skynet’s Risk Manager Authors: Tadeu Freitas, Mário Neto, Inês Dutra, João Soares, Manuel Correia, Rolando Martins | Published: 2023-11-15 ソフトウェアセキュリティ機械学習手法脆弱性管理 2023.11.15 2025.04.03 文献データベース
Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment Authors: Haoran Wang, Kai Shu | Published: 2023-11-15 | Updated: 2024-08-15 プロンプトインジェクション攻撃手法自然言語処理 2023.11.15 2025.04.03 文献データベース