AIセキュリティポータル K Program

AIエージェントシステム全体に関する脅威New

はじめに

AI技術の発展に伴い、人間に代わって特定のタスクを自律的に行うAIエージェントを用いたシステム(AIエージェントシステム)の利活用が期待されています。大規模言語モデル(Large Language Model、LLM)を中核に、Chain-of-Thought、メモリ(短期・長期記憶)、LLM単体では実現できない機能を提供するツールといった要素技術を組み合わせたAIエージェントシステムは、その自律性と能力の高さから、様々なタスクの遂行が可能です。一方で、AIエージェントシステムは、従来型のアプリケーションとは異なる、新たな攻撃対象領域が形成されるため、新たなセキュリティリスクをもたらす可能性があります。

本記事では、OWASP Foundationが提唱する「OWASP Top 10 for Agentic Applications 2026」に記載されている脅威を最新の研究動向を交えながら、体系的に分析・解説します。図1にOWASPにより特定された10個の脅威の概要を示しています。特に、本記事ではAIエージェントシステム全体に関する脅威である「ASI04: Agentic Supply Chain Vulnerabilities(エージェントサプライチェーン脆弱性)」および「ASI08: Cascading Failures(カスケード障害)」の2つの脅威について解説します。

なお、前回の記事「AIエージェント特有の脅威」では、「ASI05: 予期しないコード実行(Unexpected Code Execution)」および「ASI06: メモリ・コンテキストの汚染(Memory & Context Poisoning)」について解説しています。まだご覧になっていない方は、ぜひご一読ください。

図1  OWASPにより特定されたAIエージェントに対する10個の脅威の概要と着目する脅威。(出典:OWASP Top 10 For Agentic Applications 2026[1]、 CC BY-SA 4.0、一部改変。この改変した図も CC BY-SA 4.0 により提供。)

 ASI04: エージェントサプライチェーン脆弱性(Agentic Supply Chain Vulnerabilities)

概要

エージェントサプライチェーン脆弱性とは、AIエージェントシステムを構成するモデル、ツール、プラグイン、データセット、エージェント間通信プロトコル、外部レジストリなど、サードパーティが提供するコンポーネントが改ざん・侵害されることで、エージェントの実行チェーン全体に悪意あるコード・指示・欺瞞的な挙動が混入する脅威です。従来のソフトウェアサプライチェーン攻撃は、主に静的な依存関係を標的としていましたが、AIエージェントシステムでは外部ツールやエージェントペルソナが実行時に動的にロードされる点が根本的に異なります。この「生きたサプライチェーン」により、単一の侵害が複数エージェントへ連鎖的に伝播し、被害が指数関数的に拡大するリスクがあります。

近年、Model Context Protocol(MCP)を介したツールディスクリプタへの毒データ混入や、npmパッケージを偽装したバックドア型MCPサーバの公開といった実世界での事例が確認されています。代表的な3件を以下に示します。

  • GitHub MCP サーバへのプロンプトインジェクション[2]

GitHubの公式MCPサーバ実装における脆弱性がInvariant Labsにより報告されています。攻撃者がパブリックリポジトリのIssueに悪意ある指示を埋め込むと、AIエージェント(Claude Desktopなど)がその指示を正規の命令として処理し、プライベートリポジトリのデータをパブリックのプルリクエストに書き出すことが実証されました。ユーザーは「パブリックリポジトリのIssueを確認する」という通常のタスクを依頼しただけであり、エージェントが意図せず機密情報を漏洩させる点が特徴です。この脆弱性はプロトコルレベルのアーキテクチャ上の問題であり、完全な修正は困難とされています。

  • postmark-mcp を偽装したバックドア型 MCP サーバ[3]

npmに公開された「postmark-mcp」パッケージが、正規のPostmarkメール送信サービスになりすましたバックドア型MCPサーバであることが判明しました。このパッケージは、エージェント経由で送信されるすべてのメールを攻撃者が管理するドメインにBCC転送する機能を隠し持っていました。MCPサーバは一般にエージェントツールチェーン内で高い信頼と広い権限で動作するため、一度インストールされると攻撃が継続する点が深刻です。MCPサプライチェーンに対する初めての実世界でのインシデントとして広く報告されています。

  • Smithery.ai のパストラバーサルによる大規模な情報漏洩[4]

GitGuardianの研究者は、MCPサーバのホスティングプラットフォームであるSmithery.aiにおいて、Dockerビルドパス設定の検証不備(パストラバーサル脆弱性)を発見しました。「dockerBuildPath: ..」と設定することで、攻撃者はビルドインフラのホームディレクトリ配下のファイルにアクセスでき、Fly.io APIトークンを含む機密情報を窃取可能な状態でした。この単一トークンにより、Smitheryがホストする3、000以上のMCPアプリケーション全体への任意コード実行が理論上可能となっていました。脆弱性は2025年6月13日に開示され、6月15日に修正済みです。悪用の証拠は確認されていませんが、管理型マーケットプレイス自体が攻撃面となり得ることを示した事例として注目されています。

 この脅威の特徴となるポイントは次のとおりです。

  • 動的ロードによる攻撃面の拡大:エージェントは実行時に外部ツール・エージェントペルソナを動的にロードするため、静的解析だけでは検知が困難です。
  • 連鎖的伝播リスク:単一コンポーネントの侵害が複数エージェントへ横断的に波及し、被害が広範に及びます。
  • 信頼の悪用:レジストリやパッケージマネージャの「信頼された配布元」を悪用することで、検知を回避します。

攻撃シナリオ

  • リモートからの毒プロンプトテンプレートのロード

エージェントが外部ソースからプロンプトテンプレートを自動取得する構成において、攻撃者はテンプレートに「機密データの外部送信」や「破壊的操作の実行」といった隠し命令を埋め込みます。これにより、開発者が意図しないまま悪意ある挙動が実行されます。また、研究論文[5]ではエージェントのスキルファイルを介したプロンプトインジェクション攻撃を体系的に評価したベンチマーク「SKILL-INJECT」を発表されています。スキルファイルは従来のメールや文書へのインジェクションと異なり、ファイル全体が命令で構成されるため、命令の権威レベルに基づく標準的な防御手法が機能しません。202件のインジェクション・タスクペアを用いた評価では、最先端モデルに対して最大80%の攻撃成功率が確認されており、データ窃取・破壊的操作・ランサムウェア的挙動といった深刻な命令の実行も観測されています。

  • MCPツールディスクリプタへの毒データ注入

攻撃者がMCPツールのメタデータ・スキーマ・ルーティング情報に悪意あるペイロードを埋め込むことで、ホストエージェントがそれを正規の機能指示と解釈し、不正な操作を実行します。上記で紹介したように、GitHubのMCP実装において、この手法による実証事例が報告されています。

  • タイポスクワッティングと偽エージェントのなりすまし

エージェントが動的に外部ツールやサービスを発見・接続する際に、類似名のエンドポイントに誘導されることで被害が発生します。

  • 侵害されたエージェントを介した横断的な攻撃

パッチ未適用の脆弱性や安全でないデフォルト設定を持つサードパーティエージェントがマルチエージェントワークフローに組み込まれると、そのエージェントを踏み台として、信頼関係にある他のエージェントへ悪意ある指示を中継・伝播させることが可能になります。

  • 侵害されたMCP/レジストリサーバの悪用

エージェント管理サーバやパッケージレジストリが侵害された場合、正規に見えるマニフェスト・プラグイン・エージェントディスクリプタが広く配布されます。オーケストレーションシステムがレジストリを信頼するため、改ざんされたコンポーネントが大規模に展開されます。ある研究[6]では、エージェントスキルのサプライチェーンに対して形式検証を適用するフレームワークが提案されています。MCPサーバはツールスキーマ(入出力の型)を宣言するものの、権限要件を明示しないため、「ファイル検索」と称するサーバが任意コードを実行できる問題を指摘しています。

想定リスク

  • エージェントの実行チェーン全体への悪意あるコード・バックドアの混入
  • 機密情報・APIキー・シークレットの窃取と外部送信
  • 単一侵害からシステム全体への連鎖的被害
  • 正規ツールや配布チャネルを悪用した検知回避
  • サプライチェーン上の第三者を経由した間接的なシステム侵害

対策

  • 出所管理とSBOM/AIBOMの整備

マニフェスト・プロンプト・ツール定義に署名・証明を付与します。SBOM(ソフトウェア部品表)およびAIBOM(AI部品表)を整備・運用し、AIコンポーネントのインベントリと定期的な証明を維持します。信頼されたレジストリのみを使用し、未検証のソースはブロックします。

  • 依存関係のゲートキーピング

許可リストへの登録とバージョン固定(ピン止め)を徹底し、タイポスクワッティング(PyPI、npm等)をスキャンします。インストールや有効化の前に出所を検証し、署名なし・未検証のコンポーネントは自動拒否します。

  • コンテナ化とサンドボックス実行

機密性の高いエージェントは、厳格なネットワーク制限やシステムコール制限を設けたサンドボックスコンテナで実行し、再現可能なビルドを要件とします。

  • プロンプト・メモリの安全管理

プロンプト・オーケストレーションスクリプト・メモリスキーマをバージョン管理下に置き、ピアレビューを義務付けることや、異常パターンの定期スキャンを実施します。

  • エージェント間通信のセキュリティ

PKIとmTLS(相互TLS)による相互認証・証明書検証を徹底します。オープンなエージェント登録を禁止し、エージェント間メッセージには署名・検証を必須とします。

  • 継続的な検証とモニタリング

実行時にも署名・ハッシュ・SBOM(AIBOMを含む)を再検証します。挙動・権限使用状況・コンポーネント間テレメトリを継続的に監視し、異常を検知します。

  • ピン止めとロールバック

プロンプト・ツール・設定をコンテンツハッシュとコミットIDでピン止めします。差分テストによる段階的なロールアウトと、ハッシュ変化や挙動変化時の自動ロールバックを要件とします。

  • サプライチェーン緊急遮断機能

侵害が検知された際に、特定ツール・プロンプト・エージェント接続を全デプロイメントから即座に無効化できる緊急遮断メカニズムを実装します。連鎖被害の拡大を防止します。

  • ゼロトラスト設計

LLMやエージェント機能コンポーネントの失敗・悪用を前提とした、セキュリティフォールトトレランスのあるシステム設計を徹底します。

ASI08: カスケード障害(Cascading Failures)

概要

カスケード障害とは、AIエージェントシステムにおける単一の障害(ハルシネーション、悪意ある入力、侵害されたツール、汚染されたメモリ)が、自律的に計画・持続・委譲を行う複数エージェントを経由して伝播・増幅し、システム全体に甚大な被害をもたらす脅威です。エージェントは自律的に計画・委譲を行うため、単一のエラーが段階的な人間のチェックを迂回し、保存された状態として永続化します。エージェントが新たなツールやエージェントへの接続を動的に形成する中で、潜在的な障害が特権操作と連鎖し、機密性・完全性・可用性の侵害、さらにはエージェントネットワーク・システム・ワークフロー全体にわたる大規模なサービス障害を引き起こします。本脅威の核心は、「初期の脆弱性そのもの」ではなく、「その障害の伝播と増幅」にあります。初期の侵害はASI04(サプライチェーン)、ASI06(メモリ汚染)、ASI07(エージェント間通信)として分類され、ASI08はその障害が複数エージェント・セッション・ワークフローを横断して拡大する局面に適用されます。

攻撃シナリオ

  • 金融取引システムにおけるカスケード障害

プロンプトインジェクションがマーケット分析エージェントを汚染し、リスク限度を誇張させます。ポジション管理エージェントとエグゼキューションエージェントが「パラメータ内」の活動として大きなポジションを自動取引し、コンプライアンス監視が気づかないまま大規模な損失が発生します。

  • 医療プロトコルの伝播

ASI04のサプライチェーン改ざんが薬剤データを侵害すると、治療エージェントが自動的にプロトコルを調整し、ケアコーディネーションエージェントがそれをネットワーク全体に人間のレビューなしに展開します。

  • クラウドDNS障害によるエージェントの連鎖的な停止

大手クラウドプロバイダのDNS障害が、そのインフラに依存する複数のAIサービスを同時に破綻させ、多くの組織のエージェントシステムに連鎖障害をもたらします。ある研究[7]では、マルチエージェントシステムにおける障害がシングルモデルのジェイルブレイクとは根本的に異なることを指摘しています。共謀・ハルシネーション連鎖・役割のミスアライメントといった障害は、個々の意味的違反ではなく相互作用から生まれる「創発的特性」であるとし、テキストコンテンツを監視するセマンティック監査では不十分であることを論じています。

想定リスク

  • 機密性・完全性・可用性の侵害:単一の障害が連鎖し、データ漏洩・改ざん・サービス停止が同時に発生します。
  • 広域的なサービス障害:複数のエージェントが互いの出力に依存する構造において、誤情報が伝播・増幅され、自己強化的なエラーループが形成されます。その結果、エージェントネットワーク・システム・ワークフロー全体にわたる大規模な停止が生じます。
  • 障害の永続化:汚染されたメモリや設定が後続セッションに引き継がれ、同一エラーが再現されます。
  • ガバナンスドリフト:これまでの成功事例による監視の形骸化と設定ドリフトが複数エージェントに伝播します。

対策

  • ゼロトラスト設計

LLM、エージェント機能コンポーネント、外部ソースの可用性障害を前提とした、耐性のあるシステム設計を行います。

  • 分離と信頼境界の設定

エージェントのサンドボックス化、最小権限、ネットワーク分離、スコープ限定API、相互認証を適用し、障害の伝播を封じ込めます。

  • JIT(ジャストインタイム)単一アクセスと実行時チェック

各エージェント実行に対して短命・タスクスコープの認証情報を発行し、すべての高影響ツール呼び出しをポリシーコードのルールで検証してから実行します。侵害・ドリフトしたエージェントが他のエージェントやシステムに連鎖反応を引き起こすことを防止します。

  • 独立したポリシー強制

計画と実行を外部ポリシーエンジンで分離し、侵害された計画が有害なアクションをトリガーしないようにします。

  • 出力検証と人間によるレビュー

エージェント出力が下流に伝播される前に、チェックポイント、ガバナンスエージェント、または高リスク操作への人間レビューを設けます。

  • レート制限と監視

急速に伝播するコマンドを検知し、異常時にスロットリングまたは一時停止します。

  • 挙動・ガバナンスドリフトの検知

意思決定をベースライン・整合性と比較し、段階的な劣化にフラグを立てます。

  • デジタルツインリプレイとポリシーゲーティング

過去1週間のエージェント動作を本番環境の分離クローンで再実行し、同一シーケンスがカスケード障害を引き起こすか検証します。

  • ログ管理と否認防止

暗号学的エージェントIDに紐づけられた改ざん防止・タイムスタンプ付きのログに、エージェント間メッセージ・ポリシー決定・実行結果をすべて記録します。伝播した各アクションのリネージメタデータを維持し、フォレンジック追跡・ロールバック検証・カスケード時の責任所在明確化を支援します。

おわりに

本記事では、「ASI04: エージェントサプライチェーン脆弱性」と「ASI08: カスケード障害」の2つを解説しました。ASI04が示すように、AIエージェントシステムは外部ツール・プロトコル・レジストリを実行時に動的に組み合わせる「生きたサプライチェーン」を持ちます。これは従来の静的なソフトウェアサプライチェーン管理だけでは対処できない新たなリスク面を生み出しています。また、ASI08が示すように、エージェントの自律性と相互依存性は、単一の障害をシステム全体に波及させる可能性があります。人間の監視の速度を超えて障害が広がる点が、従来システムとの本質的な違いです。両脅威に共通する対策の方向性は、「信頼の前提を排除したゼロトラスト設計」、「最小権限と分離の徹底」、「継続的な監視と人間によるゲート」のようなガバナンス的対策です。AIエージェントシステムの安全な社会実装に向けて、これらの対策を設計段階から組み込むことが不可欠です。

参考文献

[1] OWASP Gen AI Security Project – Agentic Security Initiative, “OWASP Top 10 For Agentic Applications 2026.” 2025年12月.

[2] Invariant Labs, “GitHub MCP Exploited: Accessing private repositories via MCP,” May 26, 2025. https://invariantlabs.ai/blog/mcp-github-vulnerability, 2026年6月17日参照.

[3] Liran Tal(Snyk), “Malicious MCP Server on npm postmark-mcp Harvests Emails,” September 25, 2025. https://snyk.io/blog/malicious-mcp-server-on-npm-postmark-mcp-harvests-emails,2026年6月17日参照.

[4] GAETAN Ferry (GitGuardian), “From Path Traversal to Supply Chain Compromise: Breaking MCP Server Hosting,” October 22, 2025, https://blog.gitguardian.com/breaking-mcp-server-hosting,2026年6月17日参照.

[5] Schmotz, David, et al. “Skill-inject: Measuring agent vulnerability to skill file attacks.” arXiv preprint arXiv:2602.20156 (2026).

[6] Bhardwaj, Varun Pratap. “Formal analysis and supply chain security for agentic AI skills.” arXiv preprint arXiv:2603.00195 (2026).

[7] Luo, Zixun, et al. “Auditing Cascading Risks in Multi-Agent Systems via Semantic-Geometric Co-evolution.” arXiv preprint arXiv:2603.13325 (2026).

Loading...
Share