AIセキュリティポータルbot

Adaptive Attack Detection in Text Classification: Leveraging Space Exploration Features for Text Sentiment Classification

Authors: Atefeh Mahdavi, Neda Keivandarian, Marco Carvalho | Published: 2023-08-29
テキスト生成手法
敵対的訓練
適応型誤用検出

On the Steganographic Capacity of Selected Learning Models

Authors: Rishit Agrawal, Kelvin Jou, Tanush Obili, Daksh Parikh, Samarth Prajapati, Yash Seth, Charan Sridhar, Nathan Zhang, Mark Stamp | Published: 2023-08-29
データ生成
機械学習手法
透かしの耐久性

Gender bias and stereotypes in Large Language Models

Authors: Hadas Kotek, Rikker Dockum, David Q. Sun | Published: 2023-08-28
AIによる出力のバイアスの検出
アルゴリズムの公平性
大規模言語モデル

Generating tabular datasets under differential privacy

Authors: Gianluca Truda | Published: 2023-08-28
データ生成
プライバシー保護
プライバシー保護手法

Are Existing Out-Of-Distribution Techniques Suitable for Network Intrusion Detection?

Authors: Andrea Corsini, Shanchieh Jay Yang | Published: 2023-08-28
Out-of-Distribution検出
未知の攻撃検出
機械学習手法

Detecting Language Model Attacks with Perplexity

Authors: Gabriel Alon, Michael Kamfonas | Published: 2023-08-27 | Updated: 2023-11-07
LLMセキュリティ
プロンプトインジェクション
悪意のあるプロンプト

LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors

Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen | Published: 2023-08-26 | Updated: 2023-10-14
トリガーの検知
バックドアモデルの検知
攻撃手法

Uncovering Promises and Challenges of Federated Learning to Detect Cardiovascular Diseases: A Scoping Literature Review

Authors: Sricharan Donkada, Seyedamin Pouriyeh, Reza M. Parizi, Meng Han, Nasrin Dehbozorgi, Nazmus Sakib, Quan Z. Sheng | Published: 2023-08-26
スマートヘルスケア
医療AIの脅威
連合学習

Active learning for fast and slow modeling attacks on Arbiter PUFs

Authors: Vincent Dumoulin, Wenjing Rao, Natasha Devroye | Published: 2023-08-25
PUFの評価手法
アクティブラーニング
機械学習手法

ZeroLeak: Using LLMs for Scalable and Cost Effective Side-Channel Patching

Authors: M. Caner Tol, Berk Sunar | Published: 2023-08-24
LLMセキュリティ
脆弱性回避手法
透かしの耐久性