AI News

推論効率を最大化する次世代LLMネットワーク「ZCube」:構成の最適化による性能向上とコスト削減

#AIニュース

📝 概要

LLM推論インフラにおいて、ネットワークはもはや単なる接続層ではなく、スループットと遅延を左右するクリティカルパスとなっています。長文コンテキスト推論やPrefill-Decode(PD)分離の標準化に伴い、従来のFat-Tree(Clos)トポロジーでは、非対称なトラフィックによる局所的な混雑が避けられない課題となっていました。Z.ai、Harnets.AI、清華大学が共同開発した「ZCube」は、ネットワーク層の構造的なイノベーションによりこのボトルネックを解消します。既存のGPUやソフトウェアを変更することなく、スイッチコストを33%削減しつつ、推論スループットを15%向上させるという、極めて投資対効果の高いソリューションを実現しています。

📋 詳細レポート

推論トラフィックの変容とネットワークの限界

大規模言語モデル(LLM)の推論、特にPrefill(入力処理)とDecode(生成処理)を分離するデプロイメントが主流になるにつれ、ノード間のKV Cache転送が急増しています。このトラフィックは極めて非対称であり、通信の送信元・送信先、およびデータ量が動的に変化するという特徴を持ちます。

従来のAIクラスタで採用されてきたROFT(Rail-Optimized Fat-Tree)アーキテクチャは、静的なトポロジーとポートマッピングに基づいているため、特定のスイッチやリンクにトラフィックが集中し、ローカルなホットスポットやPFCバックプレッシャー(通信の一時停止要請)を誘発します。これにより、理論上の帯域幅は十分であっても、実際の転送パフォーマンスが大幅に低下し、結果としてTTFT(最初のトークン生成までの時間)や全体のスループットが悪化するという構造的な問題が生じていました。

ZCubeの核心的メカニズム

ZCubeは、階層的なスイッチの積み重ねを打破し、完全にフラットなネットワークトポロジーを導入します。

  • Spine層の廃止と完全二部グラフ接続: 従来のSpineスイッチを排除し、Leafスイッチを2つのグループ(奇数群と偶数群)に分割。これらを完全二部グラフとして相互接続します。
  • ハイブリッド・アクセス設計: 各GPUのNICを、シングルレール(連続したIDの接続)とマルチレール(グループ間での相対インデックスに基づく接続)の2つのパターンで両グループのスイッチに接続します。
  • 2ホップのネットワーク直径: 任意のGPUペアが最大2つのスイッチホップで到達可能な構造を持ち、大規模化(数万〜数十万GPU)と低遅延を両立します。
  • 論理的負荷分散: ZCubeのルーティング戦略は、特定のパスへの集中を避け、全スイッチ間で理想的な負荷分散を実現するように設計されています。

実環境での導入効果

GLM-5.1(コーディング特化型LLM)を用いた1,000台規模のGPUクラスタによるプロダクション環境でのベンチマークでは、以下の顕著な成果が確認されました。

  1. コスト効率の向上: スイッチおよび光モジュールの設備投資(CapEx)を33%削減。
  2. スループットの改善: アプリケーション側を一切変更することなく、GPU1枚あたりの平均推論スループットが15%向上。
  3. 遅延の抑制: TTFTのP99(テールレイテンシ)が40.6%減少。

また、Harnets.AIが開発した「ZCube Controller」や自動配線検証ツールなどのエコシステムにより、従来のClosネットワークからZCubeへの迅速かつ安定した移行が可能となっています。

今後の展望:モデル駆動型システム設計への進化

LLMインフラは、個別の要素最適化から、ネットワークと推論エンジンを統合的に捉える「システムレベルの共同設計(Co-design)」へとシフトしています。MoE(Mixture of Experts)や学習・推論統合ワークロードなど、通信パターンが複雑化し続ける中で、トポロジー、通信ライブラリ、スケジューリングポリシーをモデルのトラフィック特性に合わせて最適化する重要性が高まっています。

ZCubeの成功は、ネットワークを単なる「GPUの接続層」から、「トークン生成効率とコスト効率を直接駆動するコアコンポーネント」へと昇華させる重要な一歩と言えます。今後は、さらに大規模なクラスタへの対応と、より高度なトラフィック駆動型アーキテクチャの研究が進むことが期待されます。