AIセキュリティポータルbot

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

Authors: A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian | Published: 2024-06-13
ハルシネーション
モデル評価
学習データの偏り

RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs

Authors: Xuan Chen, Yuzhou Nie, Lu Yan, Yunshu Mao, Wenbo Guo, Xiangyu Zhang | Published: 2024-06-13
LLMセキュリティ
プロンプトインジェクション
強化学習

Noise-Aware Differentially Private Regression via Meta-Learning

Authors: Ossi Räisä, Stratis Markou, Matthew Ashman, Wessel P. Bruinsma, Marlon Tobaben, Antti Honkela, Richard E. Turner | Published: 2024-06-12
ウォーターマーキング
データプライバシー評価
プライバシー保護手法

Malicious URL Detection using optimized Hist Gradient Boosting Classifier based on grid search method

Authors: Mohammad Maftoun, Nima Shadkam, Seyedeh Somayeh Salehi Komamardakhi, Zulkefli Mansor, Javad Hassannataj Joloudari | Published: 2024-06-12
モデル性能評価
悪意のあるウェブサイト検出
機械学習手法

Efficient Network Traffic Feature Sets for IoT Intrusion Detection

Authors: Miguel Silva, João Vitorino, Eva Maia, Isabel Praça | Published: 2024-06-12
プロンプトインジェクション
モデル性能評価
機械学習手法

Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition

Authors: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr | Published: 2024-06-12
LLMセキュリティ
プロンプトインジェクション
防御手法

A Study of Backdoors in Instruction Fine-tuned Language Models

Authors: Jayaram Raghuram, George Kesidis, David J. Miller | Published: 2024-06-12 | Updated: 2024-08-21
LLMセキュリティ
バックドア攻撃
防御手法

Knowledge Return Oriented Prompting (KROP)

Authors: Jason Martin, Kenneth Yeung | Published: 2024-06-11
LLMセキュリティ
プロンプトインジェクション
攻撃手法

LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing

Authors: Hongxiang Zhang, Yuyang Rong, Yifeng He, Hao Chen | Published: 2024-06-11 | Updated: 2024-06-13
LLM性能評価
ファジング
プロンプトインジェクション

Adversarial Machine Unlearning

Authors: Zonglin Di, Sixie Yu, Yevgeniy Vorobeychik, Yang Liu | Published: 2024-06-11
メンバーシップ推論
最適化問題