Google DeepMindが「DiffusionGemma」を公開：拡散モデルの採用でテキスト生成を最大4倍高速化 | 気になる AI ニュース

📝 概要

Google DeepMindは、テキスト生成プロセスを大幅に高速化する新しい言語モデル「DiffusionGemma」を公開しました。本モデルは、従来の自己回帰的な生成手法とは異なり、拡散モデルの手法を用いてノイズを除去しながらブロック単位で並列処理を行うことで、テキスト生成速度を最大4倍向上させています。特にローカル環境でのリアルタイム処理において極めて高いパフォーマンスを発揮し、Hugging Face上でApache 2.0ライセンスとして公開されたことで、オープンな開発コミュニティへの大きな貢献が期待されています。

📋 詳細レポート

DiffusionGemmaは、26B（260億）パラメータを持つMixture of Experts（MoE：混合エキスパート）構成を採用したモデルです。最大の特徴は、画像生成などで広く用いられる「拡散手法（Diffusion method）」をテキスト生成に応用した点にあります。

テキスト生成における並列処理の実現

従来の言語モデルは1トークンずつ順番に生成する性質上、計算リソースの並列化に限界がありました。これに対し、DiffusionGemmaはノイズ除去プロセスを通じてテキストブロックを並列に処理するアプローチを採っています。この技術的転換により、NVIDIA H100環境で毎秒1000トークン超、次世代のRTX 5090環境でも毎秒700トークン超という、驚異的な推論速度を達成しました。

主要な仕様とアクセシビリティ

モデル構造: 26BパラメータのMixture of Experts（MoE）構成。
推論パフォーマンス: NVIDIA H100で1000トークン/秒、RTX 5090で700トークン/秒以上を実現。
動作環境: 量子化版を利用することで、18GBのVRAMを搭載したコンシューマ向けGPUでも動作可能。
ライセンス: Apache 2.0ライセンスを採用し、商用・研究用途を問わず広く利用可能。

活用シーンと開発者への影響

本モデルは、精緻な推論品質が求められるタスクよりも、速度が最優先される「リアルタイム用途」に最適化されています。ベンチマークスコアではGemma 4などの最新フラッグシップモデルに及ばないものの、ローカル環境で動作するAIエージェントや、即時応答が求められるインタラクティブなアプリケーション開発において、新たな可能性を提示しています。すでに開発者コミュニティからは、その圧倒的な速度に対して歓迎の声が上がっています。

今後の展望

GoogleのSundar Pichai CEOも自らブログで本プロジェクトを共有しており、同社が「速度」と「ローカル動作」を次世代AIの重要な柱の一つと捉えていることが伺えます。DiffusionGemmaの登場により、これまでクラウド側に依存していた高度なテキスト処理が、より手軽かつ高速にローカルデバイス上へと移行していく流れが加速するものと予想されます。品質と速度のトレードオフをどのように最適化していくかが、今後の開発における焦点となるでしょう。