自然言語処理

Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment

Authors: Haoran Wang, Kai Shu | Published: 2023-11-15 | Updated: 2024-08-15
プロンプトインジェクション
攻撃手法
自然言語処理

Privately Aligning Language Models with Reinforcement Learning

Authors: Fan Wu, Huseyin A. Inan, Arturs Backurs, Varun Chandrasekaran, Janardhan Kulkarni, Robert Sim | Published: 2023-10-25 | Updated: 2024-05-03
プライバシー手法
モデル設計
自然言語処理

Detecting Pretraining Data from Large Language Models

Authors: Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer | Published: 2023-10-25 | Updated: 2024-03-09
データ生成
自然言語処理
著作権トラップ

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

Authors: Shahriar Golchin, Mihai Surdeanu | Published: 2023-08-16 | Updated: 2024-02-21
データ汚染検出
プロンプトインジェクション
自然言語処理

Revolutionizing Cyber Threat Detection with Large Language Models: A privacy-preserving BERT-based Lightweight Model for IoT/IIoT Devices

Authors: Mohamed Amine Ferrag, Mthandazo Ndhlovu, Norbert Tihanyi, Lucas C. Cordeiro, Merouane Debbah, Thierry Lestable, Narinderjit Singh Thandi | Published: 2023-06-25 | Updated: 2024-02-08
マルウェア検出手法
特徴抽出手法
自然言語処理

On the Uses of Large Language Models to Interpret Ambiguous Cyberattack Descriptions

Authors: Reza Fayyazi, Shanchieh Jay Yang | Published: 2023-06-24 | Updated: 2023-08-22
プロンプトインジェクション
マルウェア分類
自然言語処理

Automated Mapping of CVE Vulnerability Records to MITRE CWE Weaknesses

Authors: Ashraf Haddad, Najwa Aaraj, Preslav Nakov, Septimiu Fabian Mare | Published: 2023-04-13
セキュリティ分析
データセット生成
自然言語処理

Bayesian Attention Belief Networks

Authors: Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou | Published: 2021-06-09
自然言語処理
計算効率
評価手法

Resilient and Adaptive Framework for Large Scale Android Malware Fingerprinting using Deep Learning and NLP Techniques

Authors: ElMouatez Billah Karbab, Mourad Debbabi | Published: 2021-05-27
データ駆動型クラスタリング
マルウェア拡散手段
自然言語処理

Killing One Bird with Two Stones: Model Extraction and Attribute Inference Attacks against BERT-based APIs

Authors: Chen Chen, Xuanli He, Lingjuan Lyu, Fangzhao Wu | Published: 2021-05-23 | Updated: 2021-12-26
プライバシー保護手法
メンバーシップ推論
自然言語処理