Metaが「SAM 3.1」を公開：Object Multiplexingにより動画セグメンテーションの推論速度が7倍に向上 | 気になる AI ニュース

📝 概要

Metaは、画像および動画のセグメンテーションを行う基盤モデルの最新アップデート版「SAM 3.1」を公開しました。本リリースの最大の特徴は、新技術「Object Multiplex」の導入により、精度を損なうことなく動画処理の効率を劇的に改善した点にあります。具体的には、128個のオブジェクトを追跡する際の推論速度が、単一のH100 GPU環境で約7倍に向上しました。これにより、従来よりも小規模なハードウェアで高性能な動画解析アプリケーションを運用することが可能になります。

📋 詳細レポート

オープンボキャブラリに対応するSAM 3の継承

SAM 3.1の基盤となる「SAM 3 (Segment Anything with Concepts)」は、テキスト、ポイント、ボックス、マスクといった多様なプロンプトを用いて、画像・動画内のオブジェクトを検出・追跡する統一基盤モデルです。従来のモデルと比較して、テキストで指定されたオープンボキャブラリな概念を網羅的にセグメンテーションする能力に長けており、既存のベンチマークの50倍を超えるユニークな概念を処理できます。これは、400万以上のユニークな概念を自動アノテーションした革新的なデータエンジンによって支えられています。

SAM 3.1の主要機能と技術的特徴

Object Multiplex: 複数のオブジェクトを同時に追跡する際、共有メモリを活用して処理を行うアプローチです。これにより、オブジェクト数が増えた場合でも計算効率を維持し、大幅な高速化を実現しました。
Presence Token: モデルアーキテクチャに導入された新しいトークンで、「白い服の選手」と「赤い服の選手」のような、酷似したテキストプロンプト間の識別精度を向上させます。
Decoupled Detector–Tracker: 検出器と追跡器の設計を切り離すことで、タスク間の干渉を最小限に抑え、データ規模に応じた効率的なスケーリングを可能にしています。

処理性能とベンチマークの結果

SAM 3.1は、動画オブジェクトセグメンテーション（VOS）における7つの主要ベンチマークのうち、6つで性能向上を記録しています。また、27万件のユニークな概念を含むSA-COベンチマークにおいて、人間レベルの75-80%に達するパフォーマンスを達成しました。推論効率の面では、特に多オブジェクト環境での優位性が高く、128オブジェクト追跡時に約7倍の高速化を達成しながら、精度の低下が見られないことが確認されています。

今後の展望と導入環境

Metaは、このアップデートをコミュニティに共有することで、よりアクセスしやすいハードウェア上での高性能アプリケーションの実現を支援するとしています。SAM 3.1を利用するためには、最新のコードベースの導入が必要であり、実行環境としてPython 3.12以上、PyTorch 2.7以上、およびCUDA 12.6以上が推奨されています。モデルチェックポイントはHugging Faceにて公開されていますが、利用にはMetaのプライバシーポリシーへの同意と連絡先情報の共有が必要となります。