倫理的ガイドライン遵守

Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search

Authors: Robert J. Moss | Published: 2024-08-11
LLMセキュリティ
プロンプトインジェクション
倫理的ガイドライン遵守

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

Authors: Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Yongbin Li | Published: 2024-06-09 | Updated: 2024-06-13
LLMセキュリティ
プロンプトインジェクション
倫理的ガイドライン遵守

Transforming Computer Security and Public Trust Through the Exploration of Fine-Tuning Large Language Models

Authors: Garrett Crumrine, Izzat Alsmadi, Jesus Guerrero, Yuvaraj Munian | Published: 2024-06-02
LLMセキュリティ
サイバーセキュリティ
倫理的ガイドライン遵守

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users

Authors: Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang | Published: 2024-05-24 | Updated: 2024-10-11
コンテンツモデレーション
プロンプトインジェクション
倫理的ガイドライン遵守

AdjointDEIS: Efficient Gradients for Diffusion Models

Authors: Zander W. Blasingame, Chen Liu | Published: 2024-05-23 | Updated: 2025-01-21
ウォーターマーキング
倫理的ガイドライン遵守
最適化問題

Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security

Authors: Leroy Jacob Valencia | Published: 2024-05-09
ウォーターマーキング
サイバーセキュリティ
倫理的ガイドライン遵守

Protecting Your LLMs with Information Bottleneck

Authors: Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song, Tianchun Wang, Chunlin Chen, Wei Cheng, Jiang Bian | Published: 2024-04-22 | Updated: 2024-10-10
LLMセキュリティ
プロンプトインジェクション
倫理的ガイドライン遵守

Machine Unlearning in Large Language Models

Authors: Kongyang Chen, Zixin Wang, Bing Mi, Waixi Liu, Shaowei Wang, Xiaojun Ren, Jiaxing Shen | Published: 2024-02-03
プライバシー保護手法
モデル性能評価
倫理的ガイドライン遵守

Building Resilient SMEs: Harnessing Large Language Models for Cyber Security in Australia

Authors: Benjamin Kereopa-Yorke | Published: 2023-06-05
LLMの応用
サイバー攻撃
倫理的ガイドライン遵守

AI Product Security: A Primer for Developers

Authors: Ebenezer R. H. P. Isaac, Jim Reno | Published: 2023-04-18
セキュリティ分析
プライバシー手法
倫理的ガイドライン遵守