視覚でブラウザを操る次世代AIエージェント「MolmoWeb」：HTMLに依存しない操作の革新 | 気になる AI ニュース

📝 概要

アレン人工知能研究所（Ai2）が発表した「MolmoWeb」は、ブラウザを人間と同様に視覚的に捉えて操作する画期的なAIエージェントです。従来のウェブエージェントが複雑なHTML構造の解析を必要としていたのに対し、本ツールはスクリーンショットから直接推論してアクションを実行する点が最大の特徴です。この「視覚優先」のアプローチにより、ウェブサイトの内部構造の変化に左右されず、より人間に近い直感的な自動化が可能になります。モデル、コード、データセットがオープンソースとして公開されており、AIエージェントの実用性を大きく高める可能性を秘めています。

📋 詳細レポート

視覚情報の直接解釈によるブラウザ操作のパラダイムシフト

MolmoWebの核心は、マルチモーダル言語モデルの能力をウェブ操作に特化させた点にあります。従来の自動化ツールは、背後のHTMLソースやアクセシビリティツリーを解析して要素を特定していましたが、MolmoWebは人間が見るのと全く同じブラウザの「外見」を解釈します。スクリーンショットから次のステップを予測し、画面上の座標を指定してクリック、入力、スクロールといった動作を実行します。これにより、開発者がHTMLの変更に合わせてスクリプトを修正する手間が省け、堅牢なブラウザ操作が実現します。

主要な機能と技術的特徴

視覚的推論（Visual Reasoning）: HTMLを介さず、スクリーンショットに基づいてUI要素を特定・操作します。
Molmo 2 基盤: 40億（4B）および80億（8B）パラメータを持つ「Molmo 2」モデルファミリーをベースに構築されています。
多様な操作サポート: 指定URLへの移動、座標によるクリック、テキスト入力、ページスクロール、タブ切り替え、ユーザーへの応答などの実行が可能です。
オープンソースの透明性: モデルの重み、コードに加え、訓練用データセット「MolmoWebMix」も公開されており、高い透明性と拡張性を備えています。
高い解釈性: AIが「何を考え、どの座標をクリックしたか」という思考過程が1つずつログとして記録されるため、デバッグが容易です。

活用シーンと実用性

デモンストレーションでは、Wikipediaでの情報収集と要約、Airbnbを用いた宿泊先の条件検索（日付、人数、場所の入力）など、複雑なステップを要するタスクが示されました。日常的なブラウザワークフローの自動化、例えば定期的な情報の取得や、複数のサイトをまたぐ複雑な予約操作などへの活用が想定されています。また、ソースコードを読み込むよりもスクリーンショット一枚の方が情報量がコンパクトになる場合があり、処理時のトークン消費を抑えられる可能性も指摘されています。

今後の展望

Ai2は、視覚的な情報を読み取る設計が、ウェブサイトの構造変化に対する安定性をもたらすと説明しています。現在はデモ版としてホワイトリスト登録されたサイトのみが対象ですが、今後は未知のタスクへの適応や、より広範なウェブ環境での動作が期待されます。また、Claude Codeのような既存のツールと連携させるスキルとしての活用や、合成データの生成など、開発者向けの応用も視野に入っています。ウェブエージェントが「コード」から「視認」へとシフトする中で、MolmoWebはその先駆的な役割を担うと考えられます。