モデル性能評価

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

Authors: Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng | Published: 2024-09-23 | Updated: 2025-04-01
LLMの安全機構の解除
モデル性能評価
情報抽出

Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm

Authors: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin | Published: 2024-09-21 | Updated: 2024-10-06
バックドア攻撃
モデル性能評価
防御手法

Extracting Memorized Training Data via Decomposition

Authors: Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi | Published: 2024-09-18 | Updated: 2024-10-01
トレーニングデータ抽出手法
プロンプティング戦略
モデル性能評価

Artemis: Efficient Commit-and-Prove SNARKs for zkML

Authors: Hidde Lycklama, Alexander Viand, Nikolay Avramov, Nicolas Küchler, Anwar Hithnawi | Published: 2024-09-18
フレームワーク
モデル性能評価
暗号技術

Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

Authors: Maria Rigaki, Carlos Catania, Sebastian Garcia | Published: 2024-09-17
データセット生成
フレームワーク
モデル性能評価

DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification

Authors: Abdelkader El Mahdaouy, Salima Lamsiyah, Meryem Janati Idrissi, Hamza Alami, Zakaria Yartaoui, Ismail Berrada | Published: 2024-09-13
データセット生成
マルウェア分類
モデル性能評価

FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition

Authors: Zhenhua Xu, Wenpeng Xing, Zhebo Wang, Chang Hu, Chen Jie, Meng Han | Published: 2024-09-13
LLMセキュリティ
フィンガープリンティング手法
モデル性能評価

Sub-graph Based Diffusion Model for Link Prediction

Authors: Hang Li, Wei Jin, Geri Skenderi, Harry Shomer, Wenzhuo Tang, Wenqi Fan, Jiliang Tang | Published: 2024-09-13
シミュレーション結果評価
モデル性能評価
リンク予測手法

Advancing Malicious Website Identification: A Machine Learning Approach Using Granular Feature Analysis

Authors: Kinh Tran, Dusan Sovilj | Published: 2024-09-11
データセット生成
モデル性能評価
悪意のあるウェブサイト検出

Revisiting Static Feature-Based Android Malware Detection

Authors: Md Tanvirul Alam, Dipkamal Bhusal, Nidhi Rastogi | Published: 2024-09-11
データセット生成
ポイズニング
モデル性能評価