AI News
Google Gemini Deep Research:自律型リサーチエージェントのAPI公開と高度な共同計画機能
📝 概要
Googleは、高度な自律型リサーチエージェント「Deep Research」および「Deep Research Max」を、Gemini APIを通じて利用可能なInteractions API経由で公開しました。これは、長時間の処理を要する複雑な調査タスクを自動化し、出典を明記した詳細なレポートを作成するためのエージェントです。特筆すべきは、AIが調査を開始する前に人間が計画をレビュー・修正できる「共同計画機能」の導入です。これにより、AIの自律性と人間の意図を高度に融合させた、信頼性の高いリサーチプロセスが実現しました。
📋 詳細レポート
Googleが新たに提供を開始したDeep Researchは、従来の一問一答形式のAIとは異なり、数分から数時間に及ぶ「長期的なタスク(long-horizon tasks)」の実行を前提として設計されています。ユーザーはプロンプトを通じて調査指示を出し、エージェントが自律的に計画立案、情報検索、データの統合を行い、最終的に体系化されたレポートを生成します。
自律型リサーチを実現する2つのモデル
本機能は、速度と効率を重視した「deep-research-preview-04-2026」と、最大限の包括性を備えた「deep-research-max-preview-04-2026」の2つのバージョンで提供されます。用途に応じて、リアルタイムに近いストリーミング出力か、より深いコンテキスト収集と合成を優先するかを選択可能です。
主要機能と技術的特徴
- Interactions API: Deep Researchは従来の
generate_contentではなく、非同期処理を前提としたInteractions APIを通じて提供されます。 - 共同計画(Collaborative planning): 実行前に調査計画を提示し、ユーザーが内容を微調整できる機能です。最終的な承認(フラグの切り替え)を経て初めてレポート生成が開始されます。
- ネイティブ可視化機能: 調査結果に基づき、チャート、グラフ、インフォグラフィックを自動生成し、Base64エンコードされた画像として返却します。
- Model Context Protocol (MCP): リモートMCPサーバーを介して外部ツールと接続でき、認証が必要な外部ソースへのアクセスも可能にしています。
- マルチモーダル・グラウンディング: テキストだけでなく、画像、PDF、音声などのマルチモーダルな情報を調査のコンテキストとして入力できます。
拡張されたツールセットとカスタマイズ
デフォルトではGoogle検索、URLコンテキストの読み取り、コード実行機能が有効化されています。開発者はこれらをカスタマイズし、特定のツールのみを使用するように制限したり、独自にアップロードしたファイル群(File Search)や外部MCPサーバーと組み合わせたりすることが可能です。これにより、公開ウェブ情報の調査だけでなく、プライベートなドキュメントに基づいた専門的なリサーチにも対応します。
ワークフローの制御と透明性
Deep Researchは非同期で実行されるため、進捗をリアルタイムで確認できるストリーミング機能が重要となります。「思考の要約(thinking_summaries)」を有効にすることで、エージェントが現在どのような推論を行っているか、その中間過程を確認しながら最終結果を待つことが可能です。これは、ブラックボックス化しがちな自律型エージェントの透明性を確保する重要な要素となっています。