倫理的考慮

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Authors: Tengyun Ma, Jiaqi Yao, Daojing He, Shihao Peng, Yu Li, Shaohui Liu, Zhuotao Tian | Published: 2025-12-03

セキュリティ考慮

倫理的考慮

防御手法

2025.12.03

文献データベース

OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning

Authors: Boyu Zhu, Xiaofei Wen, Wenjie Jacky Mo, Tinghui Zhu, Yanan Xie, Peng Qi, Muhao Chen | Published: 2025-12-02

プライバシー管理

マルチモーダル安全性

倫理的考慮

2025.12.02

文献データベース

A Wolf in Sheep’s Clothing: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search

Authors: Rongzhe Wei, Peizhi Niu, Xinjie Shen, Tony Tu, Yifan Li, Ruihan Wu, Eli Chien, Olgica Milenkovic, Pan Li | Published: 2025-12-01

トレーニング手法

プロンプトインジェクション

倫理的考慮

2025.12.01

文献データベース

GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

Authors: Yuxiao Xiang, Junchi Chen, Zhenchao Jin, Changtao Miao, Haojie Yuan, Qi Chu, Tao Gong, Nenghai Yu | Published: 2025-11-26

プロンプトインジェクション

リスク評価手法

倫理的考慮

2025.11.26

文献データベース

Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations

Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24

倫理的考慮

大規模言語モデル

悪意のあるプロンプト

2025.11.24

文献データベース

Prompt Injection Vulnerability of Consensus Generating Applications in Digital Democracy

Authors: Jairo Gudiño-Rosero, Clément Contet, Umberto Grandi, César A. Hidalgo | Published: 2025-08-06

インダイレクトプロンプトインジェクション

倫理的考慮

公平性の確保

2025.08.06

文献データベース

Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems

Authors: Pengfei He, Zhenwei Dai, Xianfeng Tang, Yue Xing, Hui Liu, Jingying Zeng, Qiankun Peng, Shrivats Agrawal, Samarth Varshney, Suhang Wang, Jiliang Tang, Qi He | Published: 2025-06-03

インダイレクトプロンプトインジェクション

モデルDoS

倫理的考慮

2025.06.03

文献データベース

Red-Teaming LLM Multi-Agent Systems via Communication Attacks

Authors: Pengfei He, Yupin Lin, Shen Dong, Han Xu, Yue Xing, Hui Liu | Published: 2025-02-20 | Updated: 2025-06-02

インダイレクトプロンプトインジェクション

倫理的考慮

通信セキュリティ

2025.02.20

文献データベース

A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos

Authors: Yang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng, Yingchun Wang | Published: 2025-02-19 | Updated: 2025-06-03

LLMの安全機構の解除

倫理的考慮

大規模言語モデル

2025.02.19

文献データベース

Adversarial for Good? How the Adversarial ML Community’s Values Impede Socially Beneficial Uses of Attacks

Authors: Kendra Albert, Maggie Delano, Bogdan Kulynych, Ram Shankar Siva Kumar | Published: 2021-07-11 | Updated: 2021-09-15

倫理的考慮

機械学習の役割

社会的影響

2021.07.11 2025.04.03

文献データベース