ウォーターマーキング

SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming

Authors: Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2024-08-14
ウォーターマーキング
データセット生成
安全性アライメント

Fooling SHAP with Output Shuffling Attacks

Authors: Jun Yuan, Aritra Dasgupta | Published: 2024-08-12
AIコンプライアンス
ウォーターマーキング
バイアス

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Authors: Siyang Jiang, Hao Yang, Qipeng Xie, Chuan Ma, Sen Wang, Guoliang Xing | Published: 2024-08-12
FLとHEの統合
ウォーターマーキング
プライバシー保護手法

h4rm3l: A language for Composable Jailbreak Attack Synthesis

Authors: Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning | Published: 2024-08-09 | Updated: 2025-03-25
ウォーターマーキング
プロンプトインジェクション
プロンプトエンジニアリング

Unveiling Hidden Visual Information: A Reconstruction Attack Against Adversarial Visual Information Hiding

Authors: Jonggyu Jang, Hyeonsu Lyu, Seongjin Hwang, Hyun Jong Yang | Published: 2024-08-08
ウォーターマーキング
透かし評価
顔認識システム

LaFA: Latent Feature Attacks on Non-negative Matrix Factorization

Authors: Minh Vu, Ben Nebgen, Erik Skau, Geigh Zollicoffer, Juan Castorena, Kim Rasmussen, Boian Alexandrov, Manish Bhattarai | Published: 2024-08-07
ウォーターマーキング
攻撃手法
敵対的サンプル

On the Robustness of Malware Detectors to Adversarial Samples

Authors: Muhammad Salman, Benjamin Zi Hao Zhao, Hassan Jameel Asghar, Muhammad Ikram, Sidharth Kaushik, Mohamed Ali Kaafar | Published: 2024-08-05
ウォーターマーキング
マルウェア分類
敵対的サンプル

Model Hijacking Attack in Federated Learning

Authors: Zheng Li, Siyuan Wu, Ruichuan Chen, Paarijaat Aditya, Istemi Ekin Akkus, Manohar Vanga, Min Zhang, Hao Li, Yang Zhang | Published: 2024-08-04
ウォーターマーキング
クラスマッピング手法
ポイズニング

PromptSAM+: Malware Detection based on Prompt Segment Anything Model

Authors: Xingyuan Wei, Yichen Liu, Ce Li, Ning Li, Degang Sun, Yan Wang | Published: 2024-08-04
ウォーターマーキング
マルウェア分類
モデル性能評価

A Survey on the Applications of Zero-Knowledge Proofs

Authors: Ryan Lavin, Xuekai Liu, Hardhik Mohanty, Logan Norman, Giovanni Zaarour, Bhaskar Krishnamachari | Published: 2024-08-01
ウォーターマーキング
プライバシー保護
ブロックチェーン技術