文献データベース

Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization

Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22
LLMセキュリティ
アライメント
敵対的学習

BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models

Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22
LLMセキュリティ
テキスト生成手法
プロンプトインジェクション

Finetuning-Activated Backdoors in LLMs

Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22
LLMセキュリティ
バックドア攻撃
プロンプトインジェクション

CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning

Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22
アライメント
インダイレクトプロンプトインジェクション
出力の有害度の算出

DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection

Authors: Yuliang Yan, Haochun Tang, Shuo Yan, Enyan Dai | Published: 2025-05-22
フィンガープリンティング手法
プロンプトインジェクション
モデル識別

Password Strength Detection via Machine Learning: Analysis, Modeling, and Evaluation

Authors: Jiazhi Mo, Hailu Kuang, Xiaoqi Li | Published: 2025-05-22
データの起源と変遷
パスワードセキュリティ
機械学習

ReCopilot: Reverse Engineering Copilot in Binary Analysis

Authors: Guoqiang Chen, Huiqi Sun, Daguang Liu, Zhiqi Wang, Qiang Wang, Bin Yin, Lu Liu, Lingyun Ying | Published: 2025-05-22
アライメント
バイナリ分析
動的分析

SuperPure: Efficient Purification of Localized and Distributed Adversarial Patches via Super-Resolution GAN Models

Authors: Hossein Khalili, Seongbin Park, Venkat Bollapragada, Nader Sehatbakhsh | Published: 2025-05-22
敵対的学習
計算複雑性
防御メカニズム

Interpretable Anomaly Detection in Encrypted Traffic Using SHAP with Machine Learning Models

Authors: Kalindi Singh, Aayush Kashyap, Aswani Kumar Cherukuri | Published: 2025-05-22
モデルインバージョン
異常検知アルゴリズム
解釈可能性の損失

Verifying Differentially Private Median Estimation

Authors: Hyukjun Kwon, Chenglin Fan | Published: 2025-05-22
プライバシー評価
効率的証明システム
差分プライバシー