On Calibration of LLM-based Guard Models for Reliable Content Moderation Authors: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang | Published: 2024-10-14 LLM性能評価コンテンツモデレーションプロンプトインジェクション 2024.10.14 2025.04.03 文献データベース
Can LLMs be Scammed? A Baseline Measurement Study Authors: Udari Madhushani Sehwag, Kelly Patel, Francesca Mosca, Vineeth Ravi, Jessica Staddon | Published: 2024-10-14 LLM性能評価プロンプトインジェクション評価手法 2024.10.14 2025.04.03 文献データベース
Decoding Secret Memorization in Code LLMs Through Token-Level Characterization Authors: Yuqing Nie, Chong Wang, Kailong Wang, Guoai Xu, Guosheng Xu, Haoyu Wang | Published: 2024-10-11 LLM性能評価プライバシー保護 2024.10.11 2025.04.03 文献データベース
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning Authors: Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez | Published: 2024-10-11 LLM性能評価バックドア攻撃ポイズニング 2024.10.11 2025.04.03 文献データベース
Detecting Training Data of Large Language Models via Expectation Maximization Authors: Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang | Published: 2024-10-10 LLM性能評価メンバーシップ推論 2024.10.10 2025.04.03 文献データベース
RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? Authors: Di Cao, Yong Liao, Xiuwei Shang | Published: 2024-10-10 LLM性能評価脆弱性管理 2024.10.10 2025.04.03 文献データベース
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy Authors: Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou | Published: 2024-10-09 LLM性能評価プロンプトインジェクション 2024.10.09 2025.04.03 文献データベース
Signal Watermark on Large Language Models Authors: Zhenyu Xu, Victor S. Sheng | Published: 2024-10-09 LLM性能評価ウォーターマーキング透かし評価 2024.10.09 2025.04.03 文献データベース
Superficial Safety Alignment Hypothesis Authors: Jianwei Li, Jung-Eun Kim | Published: 2024-10-07 LLM性能評価安全性アライメント 2024.10.07 2025.04.03 文献データベース
DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech Authors: Dominika Woszczyk, Soteris Demetriou | Published: 2024-10-05 LLM性能評価プライバシー保護 2024.10.05 2025.04.03 文献データベース