Gemini 3.5 Flash に PC 操作機能「computer use」が統合：軽量モデルが自律型エージェントの基盤へ | 気になる AI ニュース

📝 概要

Googleは、軽量AIモデル「Gemini 3.5 Flash」に、画面を認識して自律的にPCを操作する新機能「computer use」を統合したと発表しました。これにより、AIがスクリーンショットから画面の状態を把握し、クリックや文字入力といった操作を直接実行するエージェントの構築が可能になります。本機能の重要性は、単なる回答生成に留まらず、複数のアプリケーションを跨ぐ複雑な業務の自動化を、高速かつ軽量なモデルで実現した点にあります。開発者は操作の意図を把握しながら、実用的なAIエージェントの開発に取り組むことができるようになります。

📋 詳細レポート

統合の背景と技術的ポイント

「computer use」は、元々「Gemini 2.5 computer use model」として個別のモデルで提供されていた機能ですが、最新の「Gemini 3.5 Flash」へと統合されました。本機能は、AIが画面のスクリーンショットを解析して現在の状態を理解し、人間と同じようにマウス操作やキーボード入力をシミュレートすることで、コンピューターを自律的に操作する仕組みです。特筆すべき点として、AIが操作を行う際、その「操作の意図」も同時に出力されるため、開発者はAIがなぜそのボタンを選択したのかといったプロセスを容易にデバッグし、透明性を確保することができます。

主要機能と特徴

視覚的画面認識: スクリーンショットをもとにUI要素を識別し、画面上の位置を特定します。
自律的操作の実行: クリック、ドラッグ、文字入力などの一連の操作を、人間を介さず連続的に実行可能です。
意図の出力: 実行する操作の目的をテキストで提示し、開発者による挙動確認を支援します。
高いベンチマーク性能: OS操作の正確性を測る「OSWorld-Verified」において、軽量モデルながら上位モデルや競合モデルに匹敵するスコアを記録しています。

活用シーンと影響

この機能により、人間が手動で行っていた定型業務や、複数のツールを横断する作業の自動化が期待されています。

業務フローの自動化: 企業向けアプリを複数跨いだ情報の収集やデータ入力。
ソフトウェアテスト: ウェブアプリの動作確認やアクセシビリティテストの自動実施。
開発効率の向上: 参照実装やドキュメントの公開により、エージェントの実装コストが低減されます。

OSWorld-Verifiedベンチマークでは、Gemini 3.5 Flashは「78.4」を記録しました。これはGemini 3 Flash（65.1）から大幅な向上を見せており、上位のGemini 3.1 Pro（76.2）をも上回る結果です。また、競合のSonnet 4.6（78.4）と同点、GPT-5.5（78.7）に迫る性能を示しており、軽量モデルが実用的なエージェントの主軸となり得ることを証明しています。

安全性と今後の展望

AIが直接PCを操作することに伴うセキュリティリスクへの対策も講じられています。特に、悪意あるWebサイト上の文言にAIが惑わされる「間接プロンプトインジェクション」に対して、Googleは以下の保護機能を用意しています。

ユーザー確認の導入: 機密性の高い操作や取り消し不能な操作を実行する前に、ユーザーの承認を求める仕組み。
攻撃検知による停止: プロンプトインジェクションを検知した際、直ちにタスクを中断する機能。

Gemini 3.5 Flashへの機能統合により、AIは「指示に答えるツール」から「画面を見て自ら動くパートナー」へとその役割を広げています。Googleが提供するデモ環境やドキュメントを基に、より多くの開発者が実社会の課題を解決する自律型エージェントを構築していくことが予想されます。