LLM性能評価

Misusing Tools in Large Language Models With Visual Adversarial Examples

Authors: Xiaohan Fu, Zihan Wang, Shuheng Li, Rajesh K. Gupta, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Earlence Fernandes | Published: 2023-10-04

LLM性能評価

プロンプトインジェクション

敵対的サンプル

2023.10.04 2025.04.03

文献データベース

Jailbreaker in Jail: Moving Target Defense for Large Language Models

Authors: Bocheng Chen, Advait Paliwal, Qiben Yan | Published: 2023-10-03

LLM性能評価

プロンプトインジェクション

評価指標

2023.10.03 2025.04.03

文献データベース

On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused?

Authors: Hangfan Zhang, Zhimeng Guo, Huaisheng Zhu, Bochuan Cao, Lu Lin, Jinyuan Jia, Jinghui Chen, Dinghao Wu | Published: 2023-10-02

LLM性能評価

プロンプトインジェクション

悪意のある行為者の分類

2023.10.02 2025.04.03

文献データベース

Watch Your Language: Investigating Content Moderation with Large Language Models

Authors: Deepak Kumar, Yousef AbuHashem, Zakir Durumeric | Published: 2023-09-25 | Updated: 2024-01-17

LLM性能評価

プロンプトインジェクション

不適切コンテンツ生成

2023.09.25 2025.04.03

文献データベース

Can LLM-Generated Misinformation Be Detected?

Authors: Canyu Chen, Kai Shu | Published: 2023-09-25 | Updated: 2024-04-23

LLM性能評価

プロンプトインジェクション

不適切コンテンツ生成

2023.09.25 2025.04.03

文献データベース

Recovering from Privacy-Preserving Masking with Large Language Models

Authors: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli | Published: 2023-09-12 | Updated: 2023-12-14

LLM性能評価

データ保護手法

プライバシー手法

2023.09.12 2025.04.03

文献データベース

Evaluating Superhuman Models with Consistency Checks

Authors: Lukas Fluri, Daniel Paleka, Florian Tramèr | Published: 2023-06-16 | Updated: 2023-10-19

LLM性能評価

アルゴリズム

評価手法

2023.06.16 2025.04.03

文献データベース

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models

Authors: Myles Foley, Ambrish Rawat, Taesung Lee, Yufang Hou, Gabriele Picco, Giulio Zizzo | Published: 2023-06-15

LLM性能評価

アルゴリズム

プロンプトインジェクション

2023.06.15 2025.04.03

文献データベース

Membership Inference Attacks against Language Models via Neighbourhood Comparison

Authors: Justus Mattern, Fatemehsadat Mireshghallah, Zhijing Jin, Bernhard Schölkopf, Mrinmaya Sachan, Taylor Berg-Kirkpatrick | Published: 2023-05-29 | Updated: 2023-08-07

LLM性能評価

プライバシー保護手法

防御手法

2023.05.29 2025.04.03

文献データベース

LLMs Can Understand Encrypted Prompt: Towards Privacy-Computing Friendly Transformers

Authors: Xuanqi Liu, Zhuotao Liu | Published: 2023-05-28 | Updated: 2023-12-15

DNN IP保護手法

LLM性能評価

プライバシー保護手法

2023.05.28 2025.04.03

文献データベース