Google Gemini Deep Research：自律型リサーチエージェントのAPI公開と高度な共同計画機能 | 気になる AI ニュース

📝 概要

Googleは、高度な自律型リサーチエージェント「Deep Research」および「Deep Research Max」を、Gemini APIを通じて利用可能なInteractions API経由で公開しました。これは、長時間の処理を要する複雑な調査タスクを自動化し、出典を明記した詳細なレポートを作成するためのエージェントです。特筆すべきは、AIが調査を開始する前に人間が計画をレビュー・修正できる「共同計画機能」の導入です。これにより、AIの自律性と人間の意図を高度に融合させた、信頼性の高いリサーチプロセスが実現しました。

📋 詳細レポート

Googleが新たに提供を開始したDeep Researchは、従来の一問一答形式のAIとは異なり、数分から数時間に及ぶ「長期的なタスク（long-horizon tasks）」の実行を前提として設計されています。ユーザーはプロンプトを通じて調査指示を出し、エージェントが自律的に計画立案、情報検索、データの統合を行い、最終的に体系化されたレポートを生成します。

自律型リサーチを実現する2つのモデル

本機能は、速度と効率を重視した「deep-research-preview-04-2026」と、最大限の包括性を備えた「deep-research-max-preview-04-2026」の2つのバージョンで提供されます。用途に応じて、リアルタイムに近いストリーミング出力か、より深いコンテキスト収集と合成を優先するかを選択可能です。

主要機能と技術的特徴

Interactions API: Deep Researchは従来のgenerate_contentではなく、非同期処理を前提としたInteractions APIを通じて提供されます。
共同計画（Collaborative planning）: 実行前に調査計画を提示し、ユーザーが内容を微調整できる機能です。最終的な承認（フラグの切り替え）を経て初めてレポート生成が開始されます。
ネイティブ可視化機能: 調査結果に基づき、チャート、グラフ、インフォグラフィックを自動生成し、Base64エンコードされた画像として返却します。
Model Context Protocol (MCP): リモートMCPサーバーを介して外部ツールと接続でき、認証が必要な外部ソースへのアクセスも可能にしています。
マルチモーダル・グラウンディング: テキストだけでなく、画像、PDF、音声などのマルチモーダルな情報を調査のコンテキストとして入力できます。

拡張されたツールセットとカスタマイズ

デフォルトではGoogle検索、URLコンテキストの読み取り、コード実行機能が有効化されています。開発者はこれらをカスタマイズし、特定のツールのみを使用するように制限したり、独自にアップロードしたファイル群（File Search）や外部MCPサーバーと組み合わせたりすることが可能です。これにより、公開ウェブ情報の調査だけでなく、プライベートなドキュメントに基づいた専門的なリサーチにも対応します。

ワークフローの制御と透明性

Deep Researchは非同期で実行されるため、進捗をリアルタイムで確認できるストリーミング機能が重要となります。「思考の要約（thinking_summaries）」を有効にすることで、エージェントが現在どのような推論を行っているか、その中間過程を確認しながら最終結果を待つことが可能です。これは、ブラックボックス化しがちな自律型エージェントの透明性を確保する重要な要素となっています。