LLM性能評価

On Calibration of LLM-based Guard Models for Reliable Content Moderation

Authors: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang | Published: 2024-10-14

LLM性能評価

コンテンツモデレーション

プロンプトインジェクション

2024.10.14 2025.04.03

文献データベース

Can LLMs be Scammed? A Baseline Measurement Study

Authors: Udari Madhushani Sehwag, Kelly Patel, Francesca Mosca, Vineeth Ravi, Jessica Staddon | Published: 2024-10-14

LLM性能評価

プロンプトインジェクション

評価手法

2024.10.14 2025.04.03

文献データベース

Decoding Secret Memorization in Code LLMs Through Token-Level Characterization

Authors: Yuqing Nie, Chong Wang, Kailong Wang, Guoai Xu, Guosheng Xu, Haoyu Wang | Published: 2024-10-11

LLM性能評価

プライバシー保護

2024.10.11 2025.04.03

文献データベース

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

Authors: Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez | Published: 2024-10-11

LLM性能評価

バックドア攻撃

ポイズニング

2024.10.11 2025.04.03

文献データベース

Detecting Training Data of Large Language Models via Expectation Maximization

Authors: Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang | Published: 2024-10-10

LLM性能評価

メンバーシップ推論

2024.10.10 2025.04.03

文献データベース

RealVul: Can We Detect Vulnerabilities in Web Applications with LLM?

Authors: Di Cao, Yong Liao, Xiuwei Shang | Published: 2024-10-10

LLM性能評価

脆弱性管理

2024.10.10 2025.04.03

文献データベース

Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy

Authors: Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou | Published: 2024-10-09

LLM性能評価

プロンプトインジェクション

2024.10.09 2025.04.03

文献データベース

Signal Watermark on Large Language Models

Authors: Zhenyu Xu, Victor S. Sheng | Published: 2024-10-09

LLM性能評価

ウォーターマーキング

透かし評価

2024.10.09 2025.04.03

文献データベース

Superficial Safety Alignment Hypothesis

Authors: Jianwei Li, Jung-Eun Kim | Published: 2024-10-07

LLM性能評価

安全性アライメント

2024.10.07 2025.04.03

文献データベース

DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech

Authors: Dominika Woszczyk, Soteris Demetriou | Published: 2024-10-05

LLM性能評価

プライバシー保護

2024.10.05 2025.04.03

文献データベース