Qwen3.5-Omni：視覚・聴覚・言語を高度に統合するオムニモーダルAIの到達点 | 気になる AI ニュース

📝 概要

AlibabaのAI研究チーム「Qwen（Tongyi Lab）」が発表した「Qwen3.5-Omni」は、テキスト、画像、音声、動画をシームレスに処理する最新のオムニモーダルモデルです。1億時間以上の視覚・音声データによるトレーニングを経て開発された本モデルは、特に音声と映像の理解においてGemini 3.1 Proを凌駕する性能を示しています。リアルタイム応答を前提とした設計により、人間とのより自然な対話を可能にする本技術は、次世代AGI（汎用人工知能）への重要なステップといえます。

📋 詳細レポート

独自アーキテクチャによるリアルタイム応答の実現

Qwen3.5-Omniの最大の特徴は、内部に「Hybrid MoE (Mixture of Experts) Talker」と「Hybrid MoE Thinker」という2つのコンポーネントを組み込んでいる点にあります。Thinkerが生成したテキスト出力をTalkerに直接伝えることで、文脈やニュアンスを維持したまま、リアルタイムで音声を出力することが可能です。この設計により、従来のモデルで課題となっていた応答の遅延が解消され、滑らかなコミュニケーションが可能になっています。

主要機能と技術仕様

広範なコンテキスト処理: 最大25万6000のシーケンス長を誇り、10時間の音声データや、1FPS換算で400秒の視聴覚データを一度に入力できます。
多言語対応: 音声認識は日本語、英語、中国語（39方言を含む）など計74言語、音声合成は日本語、英語、中国語（7方言を含む）など計29言語をサポートします。
Audio-Visual Vibe Coding: 手書きの設計図を見せながら口頭で指示を出すことで、意図に沿ったコードを生成する高度なマルチモーダル処理能力を有します。
感情豊かな音声合成: 声色や感情、音量を自在に調整し、高品質な音声を生成することが可能です。

活用シーンとベンチマーク結果

本モデルは、従来のテキストベースの指示にとどまらず、映像内の出来事を正確に説明するキャプショニングや、複雑な視聴覚情報を組み合わせたプログラミング支援など、多岐にわたるシーンでの活用が期待されています。ベンチマークにおいても、「Qwen3.5-Omni Plus」は複数のテスト項目でGemini 3.1 Proを上回るスコアを記録しており、実用的なパフォーマンスの高さが証明されています。

今後の展望と提供形態

Qwen3.5-Omniは、利用用途や計算リソースに応じて「Plus」「Flash」「Light」の3つのラインナップで展開されます。すでにオフラインAPIおよびリアルタイムAPIを通じて利用可能であり、Hugging Face上ではデモ環境も公開されています。軽量版から高機能版までを揃えることで、モバイルデバイスから大規模サーバーまで、幅広い環境での普及が見込まれます。