文献データベース

BadGD: A unified data-centric framework to identify gradient descent vulnerabilities

Authors: Chi-Hua Wang, Guang Cheng | Published: 2024-05-24
バックドア攻撃
ポイズニング

Can Implicit Bias Imply Adversarial Robustness?

Authors: Hancheng Min, René Vidal | Published: 2024-05-24 | Updated: 2024-06-05
アルゴリズム
バイアス
敵対的訓練

$$\mathbf{L^2\cdot M = C^2}$$ Large Language Models are Covert Channels

Authors: Simen Gaure, Stefanos Koffas, Stjepan Picek, Sondre Rønjom | Published: 2024-05-24 | Updated: 2024-10-07
LLM性能評価
ウォーターマーキング
セキュアな通信チャネル

Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study

Authors: Karl Tamberg, Hayretdin Bahsi | Published: 2024-05-24
LLM性能評価
プロンプトインジェクション
脆弱性管理

Lost in the Averages: A New Specific Setup to Evaluate Membership Inference Attacks Against Machine Learning Models

Authors: Florent Guépin, Nataša Krčo, Matthieu Meeus, Yves-Alexandre de Montjoye | Published: 2024-05-24
メンバーシップ推論
評価手法

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users

Authors: Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang | Published: 2024-05-24 | Updated: 2024-10-11
コンテンツモデレーション
プロンプトインジェクション
倫理的ガイドライン遵守

Transaction Fee Estimation in the Bitcoin System

Authors: Limeng Zhang, Rui Zhou, Qing Liu, Chengfei Liu, M. Ali Babar | Published: 2024-05-24
ブロックチェーン技術
取引の流れ
計算複雑性

Large Language Model Sentinel: LLM Agent for Adversarial Purification

Authors: Guang Lin, Toshihisa Tanaka, Qibin Zhao | Published: 2024-05-24 | Updated: 2025-04-23
プロンプトの検証
敵対的テキスト浄化
防御メカニズム

Cross-Task Defense: Instruction-Tuning LLMs for Content Safety

Authors: Yu Fu, Wen Xiao, Jia Chen, Jiachen Li, Evangelos Papalexakis, Aichi Chien, Yue Dong | Published: 2024-05-24
コンテンツモデレーション
プロンプトインジェクション
防御手法

A Simple Solution for Homomorphic Evaluation on Large Intervals

Authors: John Chiang | Published: 2024-05-24
アルゴリズム
ウォーターマーキング
計算効率