文献データベース

“Yes, My LoRD.” Guiding Language Model Extraction with Locality Reinforced Distillation

Authors: Zi Liang, Qingqing Ye, Yanyun Wang, Sen Zhang, Yaxin Xiao, Ronghua Li, Jianliang Xu, Haibo Hu | Published: 2024-09-04 | Updated: 2025-05-19
LLMセキュリティ
モデル抽出攻撃
透かし技術

AdvSecureNet: A Python Toolkit for Adversarial Machine Learning

Authors: Melih Catal, Manuel Günther | Published: 2024-09-04
ツールキット比較
敵対的訓練
評価手法

Adversarial Attacks on Machine Learning-Aided Visualizations

Authors: Takanori Fujiwara, Kostiantyn Kucher, Junpeng Wang, Rafael M. Martins, Andreas Kerren, Anders Ynnerman | Published: 2024-09-04 | Updated: 2024-09-24
バックドア攻撃
敵対的サンプル
視覚化の脆弱性

RACONTEUR: A Knowledgeable, Insightful, and Portable LLM-Powered Shell Command Explainer

Authors: Jiangyi Deng, Xinfeng Li, Yanjiao Chen, Yijie Bai, Haiqin Weng, Yan Liu, Tao Wei, Wenyuan Xu | Published: 2024-09-03
LLM性能評価
サイバーセキュリティ
プロンプトインジェクション

Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor

Authors: Abdullah Arafat Miah, Yu Bi | Published: 2024-09-03 | Updated: 2024-09-09
バックドア攻撃
モデル性能評価

DogeFuzz: A Simple Yet Efficient Grey-box Fuzzer for Ethereum Smart Contracts

Authors: Ismael Medeiros, Fausto Carvalho, Alexandre Ferreira, Rodrigo Bonifácio, Fabiano Cavalcanti Fernandes | Published: 2024-09-03
スマートコントラクト
ブロックチェーン技術
評価手法

Safeguarding AI Agents: Developing and Analyzing Safety Architectures

Authors: Ishaan Domkundwar, Mukunda N S, Ishaan Bhola | Published: 2024-09-03 | Updated: 2024-09-13
コンテンツモデレーション
内部レビューシステム
安全性アライメント

The Role of Transformer Models in Advancing Blockchain Technology: A Systematic Survey

Authors: Tianxu Liu, Yanbin Wang, Jianguo Sun, Ye Tian, Yanyu Huang, Tao Xue, Peiyue Li, Yiwei Liu | Published: 2024-09-02 | Updated: 2024-09-05
スマートコントラクト
プログラム解析
ブロックチェーン技術

Membership Inference Attacks Against In-Context Learning

Authors: Rui Wen, Zheng Li, Michael Backes, Yang Zhang | Published: 2024-09-02
プロンプトインジェクション
メンバーシップ推論
攻撃手法

Poster: Developing an O-RAN Security Test Lab

Authors: Sotiris Michaelides, David Rupprecht, Katharina Kohls | Published: 2024-09-02
ウォーターマーキング
サイバーセキュリティ
セキュリティ分析