生成モデル

bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs

Authors: Wence Ji, Jiancan Wu, Aiying Li, Shuyi Zhang, Junkang Wu, An Zhang, Xiang Wang, Xiangnan He | Published: 2025-09-24
LLMの安全機構の解除
プロンプトインジェクション
生成モデル

Exploring the Secondary Risks of Large Language Models

Authors: Jiawei Chen, Zhengwei Fang, Xiao Yang, Chao Yu, Zhaoxia Yin, Hang Su | Published: 2025-06-14 | Updated: 2025-09-25
インダイレクトプロンプトインジェクション
プロンプトリーキング
生成モデル

GIFDL: Generated Image Fluctuation Distortion Learning for Enhancing Steganographic Security

Authors: Xiangkun Wang, Kejiang Chen, Yuang Qi, Ruiheng Liu, Weiming Zhang, Nenghai Yu | Published: 2025-04-21
敵対的学習
生成モデル
透かし技術

Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

Authors: Andy Zhou | Published: 2025-03-13 | Updated: 2025-03-16
LLMの安全機構の解除
攻撃手法
生成モデル

Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking

Authors: Yijie Xu, Aiwei Liu, Xuming Hu, Lijie Wen, Hui Xiong | Published: 2025-03-06 | Updated: 2025-03-15
生成AI向け電子透かし
生成モデル
透かし除去技術

Cost-Effective Hallucination Detection for LLMs

Authors: Simon Valentin, Jinmiao Fu, Gianluca Detommaso, Shaoyuan Xu, Giovanni Zappella, Bryan Wang | Published: 2024-07-31 | Updated: 2024-08-09
ハルシネーション
ハルシネーションの検知
生成モデル

SecretGen: Privacy Recovery on Pre-Trained Models via Distribution Discrimination

Authors: Zhuowen Yuan, Fan Wu, Yunhui Long, Chaowei Xiao, Bo Li | Published: 2022-07-25
プライバシー分類
プライバシー漏洩
生成モデル

Generative Models for Security: Attacks, Defenses, and Opportunities

Authors: Luke A. Bauer, Vincent Bindschaedler | Published: 2021-07-21 | Updated: 2021-07-29
ポイズニング
攻撃手法
生成モデル

PassFlow: Guessing Passwords with Generative Flows

Authors: Giulio Pagnotta, Dorjan Hitaj, Fabio De Gaspari, Luigi V. Mancini | Published: 2021-05-13 | Updated: 2021-12-14
パスワード推測
パフォーマンス評価
生成モデル

Improving Query Efficiency of Black-box Adversarial Attack

Authors: Yang Bai, Yuyuan Zeng, Yong Jiang, Yisen Wang, Shu-Tao Xia, Weiwei Guo | Published: 2020-09-24 | Updated: 2020-09-25
性能評価
最適化アルゴリズムの選択と評価
生成モデル