有効パラメータ7億で大規模モデルに迫る「ZAYA1-8B」の衝撃――AMDインフラがもたらす高密度な推論性能 | 気になる AI ニュース

📝 概要

米国のAIスタートアップ「Zyphra」が開発した「ZAYA1-8B」は、小型モデルでありながら大規模言語モデル（LLM）級の推論性能を実現した画期的なAIモデルです。総パラメータ数約80億に対し、推論時の有効パラメータを約7億に抑えたMixture of Experts（MoE）方式を採用しており、数学やコーディングといった高度な論理的思考を必要とするタスクで、1000億パラメータ規模のモデルを凌駕するスコアを記録しました。特筆すべきは、NVIDIA製GPUではなくAMDのインフラを用いて学習された点であり、推論時の追加計算を活用する独自の仕組みが、小型モデルの知能密度を極限まで引き上げています。

📋 詳細レポート

AMD製インフラを活用した学習環境と開発背景

ZAYA1-8Bは、AI学習で主流となっているNVIDIA製GPUではなく、AMDのInstinct MI300Xノード1024基からなる環境でトレーニングされました。IBMと共同構築したカスタム学習クラスターやAMD Pensando Pollaraインターコネクトを駆使し、事前学習からファインチューニング、強化学習までの全工程をAMDスタックで完結させています。これは、特定ベンダーのハードウェアに依存せずとも、世界最高水準の推論モデルを構築可能であることを実証する重要な事例となりました。

効率的な推論を実現する3つの技術的特徴

モデルの設計においては、計算負荷の軽減と精度の両立を目指し、以下の3つの主要な仕組みが導入されています。

Compressed Convolutional Attention (CCA): Transformerのボトルネックとなりやすい注意機構を効率化し、計算負荷を最適化します。
MLPベースのルーター: MoEにおける専門家ネットワークの選択にMLP（多層パーセプトロン）を採用し、従来の線形ルーターよりも安定した選択を実現しました。
学習可能な残差スケーリング: 深い層での内部表現の膨張を制御する係数を学習可能にすることで、モデル全体の安定性を高めています。

推論時追加計算「マルコフ型RSA」による性能向上

ZAYA1-8Bの最大の特徴は、モデルの重みを増やすことなく、回答生成時の計算量を増やすことで精度を高める「マルコフ型RSA（Test-time Compute）」の採用です。

仕組み: 複数の推論過程を並列生成し、各推論の「末尾の断片」のみを抽出・統合して次の推論プロンプトを作成します。
メリット: 過去の推論全体を文脈に保持しないため、文脈長の増加を抑えつつ、より深い思考プロセスを経た回答が可能になります。
成果: この手法を用いることで、数学ベンチマーク「HMMT’25」において、Claude 4.5 SonnetやGPT-5-High（想定）といったフロンティアモデルを上回る性能を示したと報告されています。

活用シーンと今後の影響

ZAYA1-8Bは、数学、コーディング、複雑な指示追従といった「検証可能な正解」が存在する領域で特に強みを発揮します。有効パラメータが10億未満と軽量であるため、オンデバイスや低リソース環境での高度な推論タスクへの応用が期待されます。また、Apache 2.0ライセンスによる商用利用可能な重みの公開は、オープンソースコミュニティにおける「推論時計算の最適化」という新たなトレンドを加速させる可能性があります。

今後の展望

Zyphraは、強化学習（RLHF/RLAIF）によってチャットの品質やクリエイティブライティングの能力も向上させており、今後は特定の専門領域だけでなく、より汎用的な対話エージェントとしての活用も見込まれます。小型モデルであっても、適切なアーキテクチャ設計と推論時の戦略によって大規模モデルに比肩しうるという事実は、AI開発のパラダイムを「規模の拡大」から「知能密度の向上」へとシフトさせる一助となるでしょう。