プロンプトインジェクション

Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning

Authors: Dmitri Iourovitski, Sanat Sharma, Rakshak Talwar | Published: 2024-08-06

LLM性能評価

プロンプトインジェクション

モデル性能評価

2024.08.06 2025.04.03

文献データベース

Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models?

Authors: Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad | Published: 2024-08-05

プロンプトインジェクション

強化学習

敵対的サンプル

2024.08.05 2025.04.03

文献データベース

Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models

Authors: Zi Liang, Haibo Hu, Qingqing Ye, Yaxin Xiao, Haoyang Li | Published: 2024-08-05 | Updated: 2025-02-12

プロンプトインジェクション

プロンプトリーキング

モデル評価

2024.08.05 2025.04.03

文献データベース

Automated Phishing Detection Using URLs and Webpages

Authors: Huilin Wang, Bryan Hooi | Published: 2024-08-03 | Updated: 2024-08-16

フィッシング検出

ブランド認識問題

プロンプトインジェクション

2024.08.03 2025.04.03

文献データベース

MCGMark: An Encodable and Robust Online Watermark for LLM-Generated Malicious Code

Authors: Kaiwen Ning, Jiachi Chen, Qingyuan Zhong, Tao Zhang, Yanlin Wang, Wei Li, Yu Zhang, Weizhe Zhang, Zibin Zheng | Published: 2024-08-02

コード生成

プロンプトインジェクション

透かしの耐久性

2024.08.02 2025.04.03

文献データベース

Jailbreaking Text-to-Image Models with LLM-Based Agents

Authors: Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo | Published: 2024-08-01 | Updated: 2024-09-09

LLMセキュリティ

プロンプトインジェクション

モデル性能評価

2024.08.01 2025.04.03

文献データベース

A Qualitative Study on Using ChatGPT for Software Security: Perception vs. Practicality

Authors: M. Mehdi Kholoosi, M. Ali Babar, Roland Croft | Published: 2024-08-01

セキュリティ分析

プロンプトインジェクション

脆弱性管理

2024.08.01 2025.04.03

文献データベース

From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks

Authors: Aditya Kulkarni, Vivek Balachandran, Dinil Mon Divakaran, Tamal Das | Published: 2024-07-29 | Updated: 2025-03-15

データセット生成

フィッシング検出

プロンプトインジェクション

2024.07.29 2025.04.03

文献データベース

Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)

Authors: Apurv Verma, Satyapriya Krishna, Sebastian Gehrmann, Madhavan Seshadri, Anu Pradhan, Tom Ault, Leslie Barrett, David Rabinowitz, John Doucette, NhatHai Phan | Published: 2024-07-20 | Updated: 2025-07-10

プロンプトインジェクション

プロンプトの検証

敵対的攻撃

2024.07.20

文献データベース

Private prediction for large-scale synthetic text generation

Authors: Kareem Amin, Alex Bie, Weiwei Kong, Alexey Kurakin, Natalia Ponomareva, Umar Syed, Andreas Terzis, Sergei Vassilvitskii | Published: 2024-07-16 | Updated: 2024-10-09

ウォーターマーキング

プライバシー保護手法

プロンプトインジェクション

2024.07.16 2025.04.03

文献データベース