文献データベース

Adaptive Evaluation of Out-of-Band Defenses Against Prompt Injection in LLM Agents

Authors: Praneeth Narisetty, Shiva Nagendra Babu Kore, Uday Kumar Reddy Kattamanchi, Jayaram Kumarapu | Published: 2026-06-25
インダイレクトプロンプトインジェクション
エージェント操作手法
透かし攻撃

Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning

Authors: Poojitha Thota, Shirin Nilizadeh | Published: 2026-06-24
データセットの影響
データ毒性攻撃
ポイズニング

Privacy Vulnerabilities of Attention Layers in Tabular Foundation Models and Protection of High-Risk Queries

Authors: Tânia Carvalho, Maxime Cordy | Published: 2026-06-24
データプライバシー評価
メンバーシップ推論
差分プライバシー

Color Matters: Trigger Color Affects Success in Federated Backdoor Attacks

Authors: Kavindu Herath, Joshua C. Zhao, Saurabh Bagchi | Published: 2026-06-24
バックドア攻撃手法
色パレットの影響
透かし設計

Can Machine Learning Break Wi-Fi Privacy? A Study on MAC Address Randomization

Authors: Marta Puig, Costas Michaelides, Lucia Pintor, Boris Bellalta, Francesc Wilhelmi | Published: 2026-06-24
データセットの影響
パフォーマンス評価
特徴エンジニアリング

Do Encoders Suffice? A Systematic Comparison of Encoder and Decoder Safety Judges for LLM Adversarial Evaluation

Authors: Han Jeon, Shiv Medler, Joseph Voyles, Matt Wood | Published: 2026-06-24
データセットの影響
データ生成手法
プロンプトインジェクション

RAS: Measuring LLM Safety Through Refusal Alignment

Authors: Chang-Chieh Huang, Yan-Lun Chen, Chia-Mu Yu, Wei-Bin Lee | Published: 2026-06-24
プロンプトインジェクション
出力の有害度の算出
大規模言語モデル

Taxonomy of Risks on Automated Fact-Checking Systems Considering its Propagation

Authors: Jun Yajima, Tatsuya Oka, Takao Okubo | Published: 2026-06-24
リスク評価手法
社会的影響
自動化ファクトチェック

An Approach for a Supporting Multi-LLM System for Automated Certification Based on the German IT-Grundschutz

Authors: Lea Roxanne Muth, Marian Margraf | Published: 2026-06-24
RAG
RAGへのポイズニング攻撃
リソース不足の課題

CrypFormBench: Benchmarking Formal Analysis Capability of Large Language Models for Cryptographic Schemes

Authors: Zhaoxuan Li, Qionglu Zhang, Hengyuan Liu, Xiaoyan Gu, Xianhui Lu, Hongbo Liu, Bingzheng Wang, Haihui Fan, Ziming Zhao, Rui Zhang, Li Zhou | Published: 2026-06-24
パフォーマンス評価
プロンプトリーキング
透かし評価