Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22 LLMセキュリティアライメント敵対的学習 2025.05.22 文献データベース
BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22 LLMセキュリティテキスト生成手法プロンプトインジェクション 2025.05.22 文献データベース
Finetuning-Activated Backdoors in LLMs Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22 LLMセキュリティバックドア攻撃プロンプトインジェクション 2025.05.22 文献データベース
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen | Published: 2025-05-22 アライメントインダイレクトプロンプトインジェクション出力の有害度の算出 2025.05.22 文献データベース
DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection Authors: Yuliang Yan, Haochun Tang, Shuo Yan, Enyan Dai | Published: 2025-05-22 フィンガープリンティング手法プロンプトインジェクションモデル識別 2025.05.22 文献データベース
Password Strength Detection via Machine Learning: Analysis, Modeling, and Evaluation Authors: Jiazhi Mo, Hailu Kuang, Xiaoqi Li | Published: 2025-05-22 データの起源と変遷パスワードセキュリティ機械学習 2025.05.22 文献データベース
ReCopilot: Reverse Engineering Copilot in Binary Analysis Authors: Guoqiang Chen, Huiqi Sun, Daguang Liu, Zhiqi Wang, Qiang Wang, Bin Yin, Lu Liu, Lingyun Ying | Published: 2025-05-22 アライメントバイナリ分析動的分析 2025.05.22 文献データベース
SuperPure: Efficient Purification of Localized and Distributed Adversarial Patches via Super-Resolution GAN Models Authors: Hossein Khalili, Seongbin Park, Venkat Bollapragada, Nader Sehatbakhsh | Published: 2025-05-22 敵対的学習計算複雑性防御メカニズム 2025.05.22 文献データベース
Interpretable Anomaly Detection in Encrypted Traffic Using SHAP with Machine Learning Models Authors: Kalindi Singh, Aayush Kashyap, Aswani Kumar Cherukuri | Published: 2025-05-22 モデルインバージョン異常検知アルゴリズム解釈可能性の損失 2025.05.22 文献データベース
Verifying Differentially Private Median Estimation Authors: Hyukjun Kwon, Chenglin Fan | Published: 2025-05-22 プライバシー評価効率的証明システム差分プライバシー 2025.05.22 文献データベース