プロンプトインジェクション

Rethinking How to Evaluate Language Model Jailbreak

Authors: Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik | Published: 2024-04-09 | Updated: 2024-05-07

プロンプトインジェクション

悪意のある行為者の分類

評価手法

2024.04.09 2025.04.03

文献データベース

Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security

Authors: Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li | Published: 2024-04-08 | Updated: 2024-08-11

LLMセキュリティ

プロンプトインジェクション

脅威モデリング

2024.04.08 2025.04.03

文献データベース

Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4

Authors: Bishwas Mandal, George Amariucai, Shuangqing Wei | Published: 2024-04-07

データプライバシー評価

プライバシー保護手法

プロンプトインジェクション

2024.04.07 2025.04.03

文献データベース

Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes

Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi | Published: 2024-04-05 | Updated: 2024-09-09

LLMセキュリティ

プロンプトインジェクション

安全性アライメント

2024.04.05 2025.04.03

文献データベース

AuditGPT: Auditing Smart Contracts with ChatGPT

Authors: Shihao Xia, Shuai Shao, Mengting He, Tingting Yu, Linhai Song, Yiying Zhang | Published: 2024-04-05

ERCルール

ERC準拠評価

プロンプトインジェクション

2024.04.05 2025.04.03

文献データベース

An Investigation into Misuse of Java Security APIs by Large Language Models

Authors: Zahra Mousavi, Chadni Islam, Kristen Moore, Alsharif Abuadbba, Muhammad Ali Babar | Published: 2024-04-04

セキュリティAPIの誤用

セキュリティ分析

プロンプトインジェクション

2024.04.04 2025.04.03

文献データベース

Exploring Backdoor Vulnerabilities of Chat Models

Authors: Yunzhuo Hao, Wenkai Yang, Yankai Lin | Published: 2024-04-03

バックドア攻撃

プロンプトインジェクション

2024.04.03 2025.04.03

文献データベース

Obfuscated Malware Detection: Investigating Real-world Scenarios through Memory Analysis

Authors: S M Rakib Hasan, Aakar Dhakal | Published: 2024-04-03

サイバーセキュリティ

プロンプトインジェクション

マルウェア分類

2024.04.03 2025.04.03

文献データベース

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

Authors: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion | Published: 2024-04-02 | Updated: 2024-10-07

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.04.02 2025.04.03

文献データベース

Digital Forgetting in Large Language Models: A Survey of Unlearning Methods

Authors: Alberto Blanco-Justicia, Najeeb Jebreel, Benet Manzanares, David Sánchez, Josep Domingo-Ferrer, Guillem Collell, Kuan Eeik Tan | Published: 2024-04-02

LLM性能評価

プロンプトインジェクション

機械学習の忘却

2024.04.02 2025.04.03

文献データベース