モデルアーキテクチャ

Toward Efficient Inference Attacks: Shadow Model Sharing via Mixture-of-Experts

Authors: Li Bai, Qingqing Ye, Xinwei Zhang, Sen Zhang, Zi Liang, Jianliang Xu, Haibo Hu | Published: 2025-10-15

トリガーの検知

モデルアーキテクチャ

攻撃モデルの訓練

2025.10.15

文献データベース

Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks

Authors: Xiaodong Wu, Xiangman Li, Jianbing Ni | Published: 2025-06-23

プロンプトインジェクション

モデルアーキテクチャ

大規模言語モデル

2025.06.23

文献データベース

DUMB and DUMBer: Is Adversarial Training Worth It in the Real World?

Authors: Francesco Marchiori, Marco Alecci, Luca Pajola, Mauro Conti | Published: 2025-06-23

モデルアーキテクチャ

モデルの頑健性保証

敵対的攻撃分析

2025.06.23

文献データベース

JavelinGuard: Low-Cost Transformer Architectures for LLM Security

Authors: Yash Datta, Sharath Rajasekar | Published: 2025-06-09

プライバシー保護技術

プロンプトインジェクション

モデルアーキテクチャ

2025.06.09

文献データベース

On Large Language Models’ Hallucination with Regard to Known Facts

Authors: Che Jiang, Biqing Qi, Xiangyu Hong, Dayuan Fu, Yang Cheng, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou | Published: 2024-03-29 | Updated: 2024-10-28

ハルシネーション

ハルシネーションの検知

モデルアーキテクチャ

2024.03.29 2025.04.03

文献データベース

Self-Rewarding Language Models

Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston | Published: 2024-01-18 | Updated: 2024-02-08

アライメント

モデルアーキテクチャ

深層学習

2024.01.18 2025.04.03

文献データベース

SecureBERT and LLAMA 2 Empowered Control Area Network Intrusion Detection and Classification

Authors: Xuemei Li, Huirong Fu | Published: 2023-11-19

トレーニングプロトコル

モデルアーキテクチャ

侵入検知システム

2023.11.19 2025.04.03

文献データベース

FedTruth: Byzantine-Robust and Backdoor-Resilient Federated Learning Framework

Authors: Sheldon C. Ebron Jr., Kan Yang | Published: 2023-11-17

モデルアーキテクチャ

攻撃手法

評価手法

2023.11.17 2025.04.03

文献データベース

Investigating the Effect of Misalignment on Membership Privacy in the White-box Setting

Authors: Ana-Maria Cretu, Daniel Jones, Yves-Alexandre de Montjoye, Shruti Tople | Published: 2023-06-08 | Updated: 2024-03-12

プライバシー分析

メンバーシップ推論

モデルアーキテクチャ

2023.06.08 2025.04.03

文献データベース

Deep Learning model integrity checking mechanism using watermarking technique

Authors: Shahinul Hoque, Farhin Farhad Riya, Yingyuan Yang, Jinyuan Sun | Published: 2023-01-29 | Updated: 2025-03-21

DNN IP保護手法

ウォーターマーキング

モデルアーキテクチャ

2023.01.29 2025.04.03

文献データベース