AIによる出力のバイアスの検出

In-Context Probing for Membership Inference in Fine-Tuned Language Models

Authors: Zhexi Lu, Hongliang Chi, Nathalie Baracaldo, Swanand Ravindra Kadhe, Yuseok Jeon, Lei Yu | Published: 2025-12-18

AIによる出力のバイアスの検出

プライバシー保護機械学習

プロンプトリーキング

2025.12.18

文献データベース

LLM-Assisted Web Measurements

Authors: Simone Bozzolan, Stefano Calzavara, Lorenzo Cazzaro | Published: 2025-10-09

AIによる出力のバイアスの検出

アプリ分類手法

プロンプトインジェクション

2025.10.09

文献データベース

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09

AIによる出力のバイアスの検出

ロバスト性

防御メカニズム

2025.09.26

文献データベース

A Large Language Model-Supported Threat Modeling Framework for Transportation Cyber-Physical Systems

Authors: M Sabbir Salek, Mashrur Chowdhury, Muhaimin Bin Munir, Yuchen Cai, Mohammad Imtiaz Hasan, Jean-Michel Tine, Latifur Khan, Mizanur Rahman | Published: 2025-06-01 | Updated: 2025-07-28

AIによる出力のバイアスの検出

RAGへのポイズニング攻撃

脆弱性評価手法

2025.06.01

文献データベース

Unlearning Isn’t Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Authors: Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du | Published: 2025-05-22

AIによる出力のバイアスの検出

プライバシー管理

マシン・アンラーニング

2025.05.22

文献データベース

R1dacted: Investigating Local Censorship in DeepSeek’s R1 Language Model

Authors: Ali Naseh, Harsh Chaudhari, Jaechul Roh, Mingshi Wu, Alina Oprea, Amir Houmansadr | Published: 2025-05-19

AIによる出力のバイアスの検出

プロンプトリーキング

検閲行動

2025.05.19

文献データベース

Elevating Cyber Threat Intelligence against Disinformation Campaigns with LLM-based Concept Extraction and the FakeCTI Dataset

Authors: Domenico Cotroneo, Roberto Natella, Vittorio Orbinato | Published: 2025-05-06

AIによる出力のバイアスの検出

偽情報の検出

情報抽出手法

2025.05.06

文献データベース

LLM-Based Threat Detection and Prevention Framework for IoT Ecosystems

Authors: Yazan Otoum, Arghavan Asad, Amiya Nayak | Published: 2025-05-01

AIによる出力のバイアスの検出

LLM性能評価

プロンプトインジェクション

2025.05.01

文献データベース

Synthesizing Access Control Policies using Large Language Models

Authors: Adarsh Vatsa, Pratyush Patel, William Eiers | Published: 2025-03-14

AIによる出力のバイアスの検出

データ生成手法

プライバシー設計原則

2025.03.14 2025.04.03

文献データベース

PriFFT: Privacy-preserving Federated Fine-tuning of Large Language Models via Hybrid Secret Sharing

Authors: Zhichao You, Xuewen Dong, Ke Cheng, Xutong Mu, Jiaxuan Fu, Shiyang Ma, Qiang Qu, Yulong Shen | Published: 2025-03-05 | Updated: 2025-05-14

AIによる出力のバイアスの検出

プライバシー設計原則

暗号技術

2025.03.05

文献データベース