文献データベース

Jailbreaking Attack against Multimodal Large Language Model

Authors: Zhenxing Niu, Haodong Ren, Xinbo Gao, Gang Hua, Rong Jin | Published: 2024-02-04
プロンプトインジェクション
悪意のあるコンテンツ生成
情報収集手法

A Review and Comparison of AI Enhanced Side Channel Analysis

Authors: Max Panoff, Honggang Yu, Haoqi Shan, Yier Jin | Published: 2024-02-03
ウォーターマーキング
サイバーセキュリティ
深層学習手法

Data Poisoning for In-context Learning

Authors: Pengfei He, Han Xu, Yue Xing, Hui Liu, Makoto Yamada, Jiliang Tang | Published: 2024-02-03 | Updated: 2025-06-02
ポイズニング
ポイズニング攻撃
偽情報の検出

Machine Unlearning in Large Language Models

Authors: Kongyang Chen, Zixin Wang, Bing Mi, Waixi Liu, Shaowei Wang, Xiaojun Ren, Jiaxing Shen | Published: 2024-02-03
プライバシー保護手法
モデル性能評価
倫理的ガイドライン遵守

Human-Centered Privacy Research in the Age of Large Language Models

Authors: Tianshi Li, Sauvik Das, Hao-Ping Lee, Dakuo Wang, Bingsheng Yao, Zhiping Zhang | Published: 2024-02-03
プライバシー保護
プロンプトインジェクション
人間中心のアプローチ

Position Paper: Assessing Robustness, Privacy, and Fairness in Federated Learning Integrated with Foundation Models

Authors: Xi Li, Jiaqi Wang | Published: 2024-02-02
プライバシー保護
公平性評価
連合学習

TESSERACT: Eliminating Experimental Bias in Malware Classification across Space and Time (Extended Version)

Authors: Zeliang Kan, Shae McFadden, Daniel Arp, Feargus Pendlebury, Roberto Jordaney, Johannes Kinder, Fabio Pierazzi, Lorenzo Cavallaro | Published: 2024-02-02
バイアス
マルウェア分類
時間に関連する特徴

KTO: Model Alignment as Prospect Theoretic Optimization

Authors: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela | Published: 2024-02-02 | Updated: 2024-11-19
アライメント
データ生成手法
深層学習

Salsa Fresca: Angular Embeddings and Pre-Training for ML Attacks on Learning With Errors

Authors: Samuel Stevens, Emily Wenger, Cathy Li, Niklas Nolte, Eshika Saxena, François Charton, Kristin Lauter | Published: 2024-02-02
ウォーターマーキング
モデル設計

Domain-Independent Deception: A New Taxonomy and Linguistic Analysis

Authors: Rakesh M. Verma, Nachum Dershowitz, Victor Zeng, Dainis Boumber, Xuting Liu | Published: 2024-02-01
ウォーターマーキング
ドメイン非依存性
バイアス