プロンプトインジェクション

An Adversarial Perspective on Machine Unlearning for AI Safety

Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando | Published: 2024-09-26 | Updated: 2025-04-10

プロンプトインジェクション

安全性アライメント

機械学習の忘却

2024.09.26

文献データベース

Weak-to-Strong Backdoor Attack for Large Language Models

Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan | Published: 2024-09-26 | Updated: 2024-10-13

バックドア攻撃

プロンプトインジェクション

2024.09.26 2025.04.03

文献データベース

MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks

Authors: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Mark Purcell | Published: 2024-09-26 | Updated: 2024-10-04

ガードレール手法

コンテンツモデレーション

プロンプトインジェクション

2024.09.26 2025.04.03

文献データベース

PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach

Authors: Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li | Published: 2024-09-21 | Updated: 2024-10-03

LLM性能評価

プロンプトインジェクション

2024.09.21 2025.04.03

文献データベース

LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems

Authors: Hakan T. Otal, M. Abdullah Canbaz | Published: 2024-09-12 | Updated: 2024-09-15

LLMセキュリティ

サイバーセキュリティ

プロンプトインジェクション

2024.09.12 2025.04.03

文献データベース

Exploring LLMs for Malware Detection: Review, Framework Design, and Countermeasure Approaches

Authors: Jamal Al-Karaki, Muhammad Al-Zafar Khan, Marwan Omar | Published: 2024-09-11

LLMセキュリティ

プロンプトインジェクション

マルウェア分類

2024.09.11 2025.04.03

文献データベース

CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification

Authors: Zeqing Qin, Yiwei Wu, Lansheng Han | Published: 2024-09-11

LLM性能評価

プログラム解析

プロンプトインジェクション

2024.09.11 2025.04.03

文献データベース

DrLLM: Prompt-Enhanced Distributed Denial-of-Service Resistance Method with Large Language Models

Authors: Zhenyu Yin, Shang Liu, Guangyuan Xu | Published: 2024-09-11 | Updated: 2025-01-13

DDoS攻撃検出

LLM性能評価

プロンプトインジェクション

2024.09.11 2025.04.03

文献データベース

AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs

Authors: Lijia Lv, Weigang Zhang, Xuehai Tang, Jie Wen, Feng Liu, Jizhong Han, Songlin Hu | Published: 2024-09-11

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.09.11 2025.04.03

文献データベース

Exploring User Privacy Awareness on GitHub: An Empirical Study

Authors: Costanza Alfieri, Juri Di Rocco, Paola Inverardi, Phuong T. Nguyen | Published: 2024-09-06 | Updated: 2024-09-10

プライバシー保護

プロンプトインジェクション

ユーザー活動解析

2024.09.06 2025.04.03

文献データベース