Sakana AI、マルチエージェント・オーケストレーション「Sakana Fugu」を発表 —— フロンティアモデルを凌駕する自律的性能 | 気になる AI ニュース

📝 概要

Sakana AIは、単一のモデルAPIを通じて利用可能なフルマルチエージェント・オーケストレーションシステム「Sakana Fugu」を発表しました。本システムの重要性は、複数の強力なモデルを統合・制御することで、単体のフロンティアモデルを上回る実行能力を実現した点にあります。フラグシップとなる「Fugu Ultra」は、既存の最高峰モデルであるFableやMythosに匹敵する性能を示しながら、輸出規制のリスクを回避したフロンティア級の能力を提供します。機械学習研究の自律化から古文書の解析、複雑なコード生成に至るまで、エージェント型AIの新たな可能性を提示しています。

📋 詳細レポート

マルチエージェント・オーケストレーションによる性能の飛躍

Sakana Fuguは、複数のAIエージェントを協調させることで、高度に複雑なタスクを完遂するシステムです。従来の単一モデルへの依存とは異なり、システム全体で推論や検証を繰り返すアプローチを採っています。公開された実験結果によれば、このオーケストレーション手法は、個別のフロンティアモデル（Model A、B、C）を複数のベンチマークで上回ることが確認されました。

主要機能と技術的特徴

Fugu Ultra: FableやMythosといった主要なフロンティアモデルと同等の性能を発揮する、本システムの核となるモデル。
AutoResearch: Karpathyらによって提唱された、AIエージェントが自律的に学習コードを改善するフレームワーク。反復的な実験と検証を通じ、最適な学習レシピを探索する。
BPB（Bits-Per-Byte）: モデルの圧縮性能や予測精度を示す指標。実験では、Fugu Ultraが既存のフロンティアモデルよりも低い（優れた）数値を記録した。
NED（正規化編集距離）: 古文書の読み順推定などのタスクで使用される評価指標。1.0に近いほど専門家の正解に近いことを示す。

多角的な実証実験：ML研究から文化財解析まで

本システムの実効性は、以下の3つのケーススタディによって裏付けられています。

自律的ML研究: AutoResearchを用いた実験では、単一のH100 GPU上で14時間にわたり123回の実験を自律実行しました。バッチサイズや学習率、オプティマイザ設定を独自に最適化し、最終的に平均BPB 0.9774を達成。これは比較対象となったすべてのフロンティアモデルを上回る結果です。
古文書（仮名消息）の解析: 複雑なレイアウトを持つ「散らし書き」の読み順推定において、Fugu UltraはNED 0.80という高スコアを記録しました。他のモデルがNED 0.24以下に留まるなか、専門家の読解に極めて近い精度を実現しています。
複雑なコード生成: ルービックキューブ・ソルバーをゼロからPythonで実装するタスクでは、300個の課題すべてを完遂。平均19.72手という、フロンティアモデルA（19.76手）を凌ぐ最適解に近い手数を導き出しました。

今後の展望

Sakana Fuguの成果は、個別のモデルサイズや単体性能の向上だけでなく、「モデルをいかに協調させるか」というオーケストレーションの重要性を証明しています。特に、輸出規制等の制約下においても、システム的な工夫によって世界最高峰の性能を維持・提供できる可能性を示した点は、今後のAI開発における戦略的な指針となるでしょう。自律的な研究開発や専門性の高い分野への適応が、今後さらに加速することが期待されます。