AI News
既存AIにPC操作能力を付与する「HoloDesktop CLI」登場——API未対応アプリも画面認識で自動化へ
📝 概要
AIスタートアップのH Companyは、既存のAIエージェントにデスクトップ画面の視覚認識とPC操作能力を追加するクライアント「HoloDesktop CLI」を発表しました。従来のAIエージェントは、コード生成やAPIを介した操作には長けていましたが、GUI上のボタン操作や画像ベースの確認作業など、人間が目と手で行う直感的なタスクを苦手としてきました。HoloDesktop CLIは、専用APIを持たないアプリケーションであっても、画面を「見る」ことで人間と同様の操作を可能にします。これにより、開発ツールとUIテストのシームレスな連携など、AIエージェントの活用領域が大きく広がることが期待されます。
📋 詳細レポート
HoloDesktop CLIは、H Companyが開発したコンピューター操作向けAIモデル「Holo3」シリーズを基盤とする「H Agent」を、既存のAI環境で利用するためのインターフェースです。本ツールの導入により、OSレベルでのマウス操作やキーボード入力が自動化されます。
視覚認識による非構造的タスクの克服
従来のAI自動化における大きな障壁は、操作対象のアプリケーションが外部連携用のAPIを備えていない場合に、操作が困難になる点でした。HoloDesktop CLIは、画面をリアルタイムで解析することでこの問題を解決します。例えば、画面上にのみ存在するボタンのクリックや、画像として保存されたデータの読み取りなど、従来のプログラム的なアプローチでは対応が難しかった「人間中心のUI」をAIが直接扱えるようになります。
主要機能と特徴
- マルチプロトコル対応: MCP(Model Context Protocol)、ACP(Agent Control Protocol)、A2A(Agent-to-Agent)に対応。これにより、Claude CodeやCursor、Hermesといった既存の主要なAIエージェント環境へ容易に組み込むことが可能です。
- ハイブリッドな推論構成: 手軽なModels API(クラウド経由)の利用に加え、プライバシーを重視するユーザー向けにセルフホスト構成を選択できます。ローカルモードではスクリーンショットや入力情報が外部へ送信されません。
- 安全性の担保: AIによる誤操作や暴走を防ぐため、コマンドによる停止機能のほか、「Escキーを素早く2回押す」ことで即座に実行をキャンセルできる物理的な緊急停止(キルスイッチ)が用意されています。
- ライセンス体系: 連携部分のコードはApache 2.0ライセンスでオープンソース公開されていますが、コアとなる実行バイナリ「hai-agent-runtime」はクローズドソースとして提供されます。
エージェント間連携による活用シーン
本ツールの真価は、他のAIエージェントとの協調作業にあります。例えば、ソフトウェア開発において「Claude Code」が新機能を実装した後、その作業を「HoloDesktop CLI」に引き継ぐことが可能です。HoloDesktop CLIが実際にブラウザを起動してログインし、GUI上で新機能の動作テストを行い、不具合を発見した場合は再びClaude Codeに修正を依頼するといった、一連のワークフローを自動で完結させることができます。
今後の展望
H Companyは今後、ユーザーがPCを使用している裏側でタスクを処理する「バックグラウンドモード」や、日常的な業務に特化した「ネイティブアプリ」の開発を計画しています。さらに、将来的にはローカル環境の枠を超え、クラウドベースで複数のエージェントを並列稼働させる大規模なコンピューター操作プラットフォームの提供も視野に入れています。