文献データベース

UTS at ELOQUENT 2026 Voight-Kampff: structural shifts in AI writing bypass state-of-the-art detectors

Authors: Dima Galat, Marian-Andrei Rizoiu | Published: 2026-07-15

AIシステムの関係性

データ毒性攻撃

敵対的オブジェクト生成

2026.07.15

文献データベース

Adversarial Prompting Framework for AI Safety Assessment

Authors: Yash Bhatnagar, Kunal Banerjee, Anirban Chatterjee | Published: 2026-07-15

プロンプトインジェクション

敵対的オブジェクト生成

脅威モデル

2026.07.15

文献データベース

DREA: Decoupled Reasoning and Exploration Agents for Repository-Level Vulnerability Detection

Authors: Mingyang Sun, Guozhu Meng | Published: 2026-07-15

LLMの安全機構の解除

脆弱性予測

評価基準

2026.07.15

文献データベース

Silent Alarm: A J-Space Protocol for Comparing Danger Recognition Across Models and Quantization Levels

Authors: Roman Prosvirnin, Victor Minchenkov, Alexey Soldatov, Vladimir Bashun | Published: 2026-07-14

トレードオフ分析

モデル評価手法

評価基準

2026.07.14

文献データベース

Bulkhead: Automated Semantic Detection and Remediation of Container Escape Vulnerabilities

Authors: Qiyuan Fan, Zhi Li, Junjie Li, XiaoFeng Wang, Bin Yuan, Deqing Zou | Published: 2026-07-14

コンテナセキュリティ

プロンプトインジェクション

脆弱性優先順位付け

2026.07.14

文献データベース

PVDetector: Detecting Prompt Injection Attacks on Purpose-Specific LLM Agents through Policy-Violation Concept Analysis

Authors: Junhui Wang, Hangtao Zhang, Zhirun Zheng, Li Zeng, Jiejun Xiao, Xi Luo, Lihua Yin, Saiqin Long | Published: 2026-07-14

インダイレクトプロンプトインジェクション

エージェント操作手法

行動操作攻撃

2026.07.14

文献データベース

Open-Source Intelligence for Code Provenance and the Security Patterns that Separate Human and Large-Language-Model Implementations of Common Programming Tasks

Authors: Mohammadreza Rashidi | Published: 2026-07-14

プロンプトリーキング

モデル抽出攻撃

情報セキュリティ

2026.07.14

文献データベース

Agent-Safety Evaluations as Load-Bearing Evidence: A Vendor-Neutral, Cross-Harness Reconstructability Metric

Authors: Oleg Solozobov | Published: 2026-07-14

エージェント操作手法

モデル評価手法

評価基準

2026.07.14

文献データベース

Isolation as a First-Class Principle for LLM-Agent System Safety: Concepts, Taxonomy, Challenges and Future Directions

Authors: Huihao Jing, Wenbin Hu, Shaojin Chen, Haochen Shi, Sirui Zhang, Hanyu Yang, Changxuan Fan, Zhongwei Xie, Hongyu Luo, Wun Yu Chan, Wei Fan, Haoran Li, Yangqiu Song | Published: 2026-07-14

RAGへのポイズニング攻撃

プロンプトインジェクション

攻撃手法の説明

2026.07.14

文献データベース

Agent Hacks Agent: Autoresearch for Production-Agent Red-Teaming

Authors: Xutao Mao, Xiang Zheng, Cong Wang | Published: 2026-07-13

インダイレクトプロンプトインジェクション

シナリオベースの悪用

攻撃手法評価

2026.07.13

文献データベース