LLMセキュリティ

EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models

Authors: Chongwen Zhao, Zhihao Dou, Kaizhu Huang | Published: 2024-08-21

LLMセキュリティ

プロンプトインジェクション

防御手法

2024.08.21 2025.04.03

文献データベース

Security Attacks on LLM-based Code Completion Tools

Authors: Wen Cheng, Ke Sun, Xinyu Zhang, Wei Wang | Published: 2024-08-20 | Updated: 2025-01-02

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.08.20 2025.04.03

文献データベース

Transferring Backdoors between Large Language Models by Knowledge Distillation

Authors: Pengzhou Cheng, Zongru Wu, Tianjie Ju, Wei Du, Zhuosheng Zhang Gongshen Liu | Published: 2024-08-19

LLMセキュリティ

バックドア攻撃

ポイズニング

2024.08.19 2025.04.03

文献データベース

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

Authors: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu | Published: 2024-08-18 | Updated: 2024-09-03

LLMセキュリティ

プロンプトインジェクション

安全性アライメント

2024.08.18 2025.04.03

文献データベース

BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger

Authors: Yulin Chen, Haoran Li, Yirui Zhang, Zihao Zheng, Yangqiu Song, Bryan Hooi | Published: 2024-08-17 | Updated: 2025-01-10

AIコンプライアンス

LLMセキュリティ

コンテンツモデレーション

2024.08.17 2025.04.03

文献データベース

MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang | Published: 2024-08-16

LLMセキュリティ

プロンプトインジェクション

メンバーシップ推論

2024.08.16 2025.04.03

文献データベース

DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts

Authors: Xiongtao Sun, Gan Liu, Zhipeng He, Hui Li, Xiaoguang Li | Published: 2024-08-16

LLMセキュリティ

プライバシー保護手法

プロンプトインジェクション

2024.08.16 2025.04.03

文献データベース

Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks

Authors: Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Weiming Zhang | Published: 2024-08-15 | Updated: 2024-08-22

LLMセキュリティ

プロンプトインジェクション

防御手法

2024.08.15 2025.04.03

文献データベース

Casper: Prompt Sanitization for Protecting User Privacy in Web-Based Large Language Models

Authors: Chun Jie Chong, Chenxi Hou, Zhihao Yao, Seyed Mohammadjavad Seyed Talebi | Published: 2024-08-13

LLMセキュリティ

プライバシー保護

プロンプトインジェクション

2024.08.13 2025.04.03

文献データベース

Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search

Authors: Robert J. Moss | Published: 2024-08-11

LLMセキュリティ

プロンプトインジェクション

倫理的ガイドライン遵守

2024.08.11 2025.04.03

文献データベース