Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment Authors: Haoran Wang, Kai Shu | Published: 2023-11-15 | Updated: 2024-08-15 プロンプトインジェクション攻撃手法自然言語処理 2023.11.15 2025.04.03 文献データベース
Privately Aligning Language Models with Reinforcement Learning Authors: Fan Wu, Huseyin A. Inan, Arturs Backurs, Varun Chandrasekaran, Janardhan Kulkarni, Robert Sim | Published: 2023-10-25 | Updated: 2024-05-03 プライバシー手法モデル設計自然言語処理 2023.10.25 2025.04.03 文献データベース
Detecting Pretraining Data from Large Language Models Authors: Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer | Published: 2023-10-25 | Updated: 2024-03-09 データ生成自然言語処理著作権トラップ 2023.10.25 2025.04.03 文献データベース
Time Travel in LLMs: Tracing Data Contamination in Large Language Models Authors: Shahriar Golchin, Mihai Surdeanu | Published: 2023-08-16 | Updated: 2024-02-21 データ汚染検出プロンプトインジェクション自然言語処理 2023.08.16 2025.04.03 文献データベース
Revolutionizing Cyber Threat Detection with Large Language Models: A privacy-preserving BERT-based Lightweight Model for IoT/IIoT Devices Authors: Mohamed Amine Ferrag, Mthandazo Ndhlovu, Norbert Tihanyi, Lucas C. Cordeiro, Merouane Debbah, Thierry Lestable, Narinderjit Singh Thandi | Published: 2023-06-25 | Updated: 2024-02-08 マルウェア検出手法特徴抽出手法自然言語処理 2023.06.25 2025.04.03 文献データベース
On the Uses of Large Language Models to Interpret Ambiguous Cyberattack Descriptions Authors: Reza Fayyazi, Shanchieh Jay Yang | Published: 2023-06-24 | Updated: 2023-08-22 プロンプトインジェクションマルウェア分類自然言語処理 2023.06.24 2025.04.03 文献データベース
Automated Mapping of CVE Vulnerability Records to MITRE CWE Weaknesses Authors: Ashraf Haddad, Najwa Aaraj, Preslav Nakov, Septimiu Fabian Mare | Published: 2023-04-13 セキュリティ分析データセット生成自然言語処理 2023.04.13 2025.04.03 文献データベース
Bayesian Attention Belief Networks Authors: Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou | Published: 2021-06-09 自然言語処理計算効率評価手法 2021.06.09 2025.04.03 文献データベース
Resilient and Adaptive Framework for Large Scale Android Malware Fingerprinting using Deep Learning and NLP Techniques Authors: ElMouatez Billah Karbab, Mourad Debbabi | Published: 2021-05-27 データ駆動型クラスタリングマルウェア拡散手段自然言語処理 2021.05.27 2025.04.03 文献データベース
Killing One Bird with Two Stones: Model Extraction and Attribute Inference Attacks against BERT-based APIs Authors: Chen Chen, Xuanli He, Lingjuan Lyu, Fangzhao Wu | Published: 2021-05-23 | Updated: 2021-12-26 プライバシー保護手法メンバーシップ推論自然言語処理 2021.05.23 2025.04.03 文献データベース