モデルアーキテクチャ

Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks

Authors: Xiaodong Wu, Xiangman Li, Jianbing Ni | Published: 2025-06-23
プロンプトインジェクション
モデルアーキテクチャ
大規模言語モデル

DUMB and DUMBer: Is Adversarial Training Worth It in the Real World?

Authors: Francesco Marchiori, Marco Alecci, Luca Pajola, Mauro Conti | Published: 2025-06-23
モデルアーキテクチャ
モデルの頑健性保証
敵対的攻撃分析

JavelinGuard: Low-Cost Transformer Architectures for LLM Security

Authors: Yash Datta, Sharath Rajasekar | Published: 2025-06-09
プライバシー保護技術
プロンプトインジェクション
モデルアーキテクチャ

On Large Language Models’ Hallucination with Regard to Known Facts

Authors: Che Jiang, Biqing Qi, Xiangyu Hong, Dayuan Fu, Yang Cheng, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou | Published: 2024-03-29 | Updated: 2024-10-28
ハルシネーション
ハルシネーションの検知
モデルアーキテクチャ

Self-Rewarding Language Models

Authors: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston | Published: 2024-01-18 | Updated: 2024-02-08
アライメント
モデルアーキテクチャ
深層学習

SecureBERT and LLAMA 2 Empowered Control Area Network Intrusion Detection and Classification

Authors: Xuemei Li, Huirong Fu | Published: 2023-11-19
トレーニングプロトコル
モデルアーキテクチャ
侵入検知システム

FedTruth: Byzantine-Robust and Backdoor-Resilient Federated Learning Framework

Authors: Sheldon C. Ebron Jr., Kan Yang | Published: 2023-11-17
モデルアーキテクチャ
攻撃手法
評価手法

Investigating the Effect of Misalignment on Membership Privacy in the White-box Setting

Authors: Ana-Maria Cretu, Daniel Jones, Yves-Alexandre de Montjoye, Shruti Tople | Published: 2023-06-08 | Updated: 2024-03-12
プライバシー分析
メンバーシップ推論
モデルアーキテクチャ

Deep Learning model integrity checking mechanism using watermarking technique

Authors: Shahinul Hoque, Farhin Farhad Riya, Yingyuan Yang, Jinyuan Sun | Published: 2023-01-29 | Updated: 2025-03-21
DNN IP保護手法
ウォーターマーキング
モデルアーキテクチャ

Hierarchical fuzzy neural networks with privacy preservation for heterogeneous big data

Authors: Leijie Zhang, Ye Shi, Yu-Cheng Chang, Chin-Teng Lin | Published: 2022-09-18
アルゴリズム
モデルアーキテクチャ
階層的分類手法