「Claude Code」における自律動作と安全性の両立：新機能「auto mode」の設計思想 | 気になる AI ニュース

📝 概要

Anthropicは、開発者向けツール「Claude Code」において、手動承認の手間を省きつつ安全性を確保する新機能「auto mode」を導入しました。従来、ユーザーは頻繁な承認要求による「承認疲労」から、セキュリティを無視して全自動化するリスクを冒す傾向にありました。auto modeは、モデルベースの分類器を介在させることで、ユーザーの意図に反する危険な操作のみを遮断する「中間の選択肢」を提供します。サンドボックスのような高度な設定を必要とせず、実用的な自律性を実現している点が、開発ワークフローにおける大きな転換点と言えます。

📋 詳細レポート

開発者の「承認疲労」と安全性のトレードオフ

AIエージェントがコマンドを実行する際、常にユーザーの承認を求める手法は安全ですが、開発現場では「承認疲労（approval fatigue）」を引き起こします。Anthropicの調査では、ユーザーは要求の93%を深く考えずに承認している実態があり、これが原因で、意図しないブランチの削除や認証トークンの流出といったインシデントが発生していました。auto modeは、安全だが運用の手間がかかる「サンドボックス」と、利便性は高いが無防備な「全自動実行（—dangerously-skip-permissions）」の間に位置する、新しい安全策として設計されました。

多層防御を実現する技術的特徴

auto modeは、入力と出力の両面において、AIエージェントの行動を監視する二つの主要なディフェンスレイヤーを備えています。

プロンプト注入プロンプト（入力層）: ファイルの読み取りやWebフェッチの結果に、エージェントを乗っ取ろうとする指示が含まれていないかスキャンします。不審な内容を検知した場合、エージェントのコンテキストに警告を追加し、ユーザーの本来の指示を優先するよう促します。
トランスクリプト分類器（出力層）: Claude 3.5 Sonnetを用いて、実行直前のアクションを評価します。
二段階評価プロセス: 最初に高速な「シングル・トークン・フィルタ」で判定を行い、疑わしい場合のみ「思考の連鎖（Chain-of-Thought）」を用いた詳細な推論を実行します。これにより、大半のアクションで低遅延を維持しながら、高度な判断が必要な場面での精度を確保しています。
推論ブラインド設計: 分類器にはユーザーの指示とツール呼び出しのみを提示し、モデル自身の内部的な思考プロセスを排除することで、客観的な行動評価を可能にしています。

三段階の実行許可ティア

安全性と開発効率を両立するため、操作の種類に応じて三つのティア（階層）が設けられています。

ティア1（組み込み許可リスト）: ファイルの読み取り、検索、コードナビゲーションなど、システムの状態を変更しない「安全なツール」は即座に実行されます。
ティア2（プロジェクト内操作）: プロジェクトディレクトリ内のファイル編集や書き込み。これらはバージョン管理システムで変更を確認・復元できるため、分類器を通さずに実行されます。
ティア3（分類器による判定）: シェルコマンドの実行など、システムに重大な副作用を及ぼす可能性がある操作。これらは必ずトランスクリプト分類器によるチェックを受けます。

今後の運用と展望

auto modeを有効にすると、任意のコード実行につながるような広範なシェルアクセスや、特定のスクリプトインタープリタ（Python, Node等）の使用に対する「常に許可する」という既存のルールは無効化されます。これは、最もリスクの高いコマンドを必ず分類器に提示させるための措置です。Anthropicは、モデルの過剰な積極性や人為的なミスをブロックするよう分類器を調整しており、今後も内部のインシデントログを元に防御機能を洗練させていく方針です。