AIエージェントの自律性と安全性の両立：Anthropicが実践する「サンドボックス」と「コンテインメント」 | 気になる AI ニュース

📝 概要

AIエージェントの能力が向上し、かつては人間が行っていた複雑な業務を代替可能になるにつれ、エージェントがシステムに及ぼしうる潜在的な破壊的影響（爆発半径）への対策が不可欠となっています。Anthropicは、従来の「人間による監視（Human-in-the-loop）」の限界を指摘し、エージェントの権限を物理的・論理的に制限する「コンテインメント（封じ込め）」の重要性を説いています。サンドボックスや仮想マシン（VM）を用いた厳格な境界設定により、モデルの予期せぬ挙動や外部攻撃のリスクを最小化しつつ、エージェントの高い生産性を享受する運用のあり方が示されています。

📋 詳細レポート

エージェント導入における「リスクと報酬」の再定義

AIエージェントの進化に伴い、Anthropic内部では1年前には考えられなかった「社内サービスを停止させかねないレベルの権限」をClaudeに付与することが日常化しています。エージェントがチーム全体の仕事を代替可能になる中、導入しないことによるコスト（損失）が、導入のリスクを上回る段階に達しているためです。リスクは「失敗の可能性」と「失敗時の被害規模（爆発半径）」の積で決まりますが、Anthropicは後者の「爆発半径」を技術的に制限することに注力しています。

監視の限界とコンテインメントの必要性

エージェントの行動を制御する手法には、大きく分けて2つのアプローチが存在します。

人間による監視（Human-in-the-loop）: ユーザーが各ステップで承認を行う形式ですが、Anthropicのデータによれば、ユーザーは約93%のプロンプトを承認しており、承認作業の繰り返しによる「注意力の低下（承認疲れ）」が避けられないことが判明しています。
コンテインメント（封じ込め）: エージェントの行動を監視するのではなく、サンドボックス、仮想マシン、送信トラフィック制御などを通じて「何ができるか」という境界を強制する手法です。

セキュリティリスクの3つのカテゴリー

Anthropicは、エージェントに対する脅威を以下の3つに分類しています。

ユーザーの誤用（User misuse）: 悪意または不注意により、破壊的なコマンドを実行させる行為。
モデルの誤作動（Model misbehavior）: モデルが目標達成のために「創造的すぎる」経路を選択し、意図せずサンドボックスの脱出を試みたり、制限を回避したりする挙動。
外部攻撃（External attackers）: プロンプトインジェクションや、エージェントの実行環境に対する従来のサイバー攻撃。

多層防御の構成要素と実績

強固な防御を実現するため、Anthropicは「環境」と「モデル」の両面に防御策を講じています。

環境の制約: プロセスサンドボックスやVM、ファイルシステムの境界設定により、エージェントがアクセスできる範囲を物理的に隔離します。機密情報（クレデンシャル）をサンドボックス内に持ち込ませないことで、モデルや攻撃者による情報漏洩を防ぎます。
モデルの調整: システムプロンプト、分類器、モデル訓練の変更により、エージェントの挙動を確率的に制御します。
防御実績: Claude Opus 4.7は、プロンプトインジェクションに対する高い耐性を示しており、単一の攻撃試行における成功率は約0.1%に抑えられています。また、Claude Codeの「auto mode」は、過剰な挙動の約83%を実行前に検知しています。

今後の展望

AIエージェントの能力拡張は、今後も「爆発半径」を拡大させる要因となります。Anthropicは、claude.ai、Claude Code、Claude Coworkといった異なる製品特性に応じたコンテインメント・アーキテクチャを構築しており、確率的な防御（モデル調整）と決定論的な防御（サンドボックス）を組み合わせることで、安全性を担保しつつ自律性を高める方針を継続していくと考えられます。