Literature Database

UTS at ELOQUENT 2026 Voight-Kampff: structural shifts in AI writing bypass state-of-the-art detectors

Authors: Dima Galat, Marian-Andrei Rizoiu | Published: 2026-07-15

Relationship of AI Systems

データ毒性攻撃

敵対的オブジェクト生成

2026.07.15 2026.07.17

Literature Database

Adversarial Prompting Framework for AI Safety Assessment

Authors: Yash Bhatnagar, Kunal Banerjee, Anirban Chatterjee | Published: 2026-07-15

Prompt Injection

敵対的オブジェクト生成

Threat Model

2026.07.15 2026.07.17

Literature Database

DREA: Decoupled Reasoning and Exploration Agents for Repository-Level Vulnerability Detection

Authors: Mingyang Sun, Guozhu Meng | Published: 2026-07-15

Disabling Safety Mechanisms of LLM

Vulnerability Prediction

評価基準

2026.07.15 2026.07.17

Literature Database

Silent Alarm: A J-Space Protocol for Comparing Danger Recognition Across Models and Quantization Levels

Authors: Roman Prosvirnin, Victor Minchenkov, Alexey Soldatov, Vladimir Bashun | Published: 2026-07-14

Trade-off Analysis

Model evaluation methods

評価基準

2026.07.14 2026.07.16

Literature Database

Bulkhead: Automated Semantic Detection and Remediation of Container Escape Vulnerabilities

Authors: Qiyuan Fan, Zhi Li, Junjie Li, XiaoFeng Wang, Bin Yuan, Deqing Zou | Published: 2026-07-14

コンテナセキュリティ

Prompt Injection

脆弱性優先順位付け

2026.07.14 2026.07.16

Literature Database

PVDetector: Detecting Prompt Injection Attacks on Purpose-Specific LLM Agents through Policy-Violation Concept Analysis

Authors: Junhui Wang, Hangtao Zhang, Zhirun Zheng, Li Zeng, Jiejun Xiao, Xi Luo, Lihua Yin, Saiqin Long | Published: 2026-07-14

Indirect Prompt Injection

エージェント操作手法

Behavior Manipulation Attack

2026.07.14 2026.07.16

Literature Database

Open-Source Intelligence for Code Provenance and the Security Patterns that Separate Human and Large-Language-Model Implementations of Common Programming Tasks

Authors: Mohammadreza Rashidi | Published: 2026-07-14

Prompt leaking

Model Extraction Attack

Information Security

2026.07.14 2026.07.16

Literature Database

Agent-Safety Evaluations as Load-Bearing Evidence: A Vendor-Neutral, Cross-Harness Reconstructability Metric

Authors: Oleg Solozobov | Published: 2026-07-14

エージェント操作手法

Model evaluation methods

評価基準

2026.07.14 2026.07.16

Literature Database

Isolation as a First-Class Principle for LLM-Agent System Safety: Concepts, Taxonomy, Challenges and Future Directions

Authors: Huihao Jing, Wenbin Hu, Shaojin Chen, Haochen Shi, Sirui Zhang, Hanyu Yang, Changxuan Fan, Zhongwei Xie, Hongyu Luo, Wun Yu Chan, Wei Fan, Haoran Li, Yangqiu Song | Published: 2026-07-14

Poisoning attack on RAG

Prompt Injection

攻撃手法の説明

2026.07.14 2026.07.16

Literature Database

Agent Hacks Agent: Autoresearch for Production-Agent Red-Teaming

Authors: Xutao Mao, Xiang Zheng, Cong Wang | Published: 2026-07-13

Indirect Prompt Injection

シナリオベースの悪用

攻撃手法評価

2026.07.13 2026.07.15

Literature Database