富士通、Transformer比で最大475倍のスループットを実現する新アーキテクチャ「PHOTON」を開発 | 気になる AI ニュース

📝 概要

富士通は、大規模言語モデル（LLM）の実行効率を劇的に向上させる新アーキテクチャ「PHOTON」を開発しました。これは、現在のLLMで主流となっているTransformerが抱える「計算量とメモリアクセスの増大」という課題を解決し、GPU当たりの処理性能を最大475倍まで引き上げるものです。LLMの運用コストが世界的な課題となる中、少ない計算リソースで高度な推論を可能にする本技術は、実社会におけるAI活用の経済性を大きく改善する重要なマイルストーンになると期待されます。

📋 詳細レポート

従来のTransformerが抱えるメモリと計算のボトルネック

近年のLLM研究では、推論時により長く、多く「考えさせる」ことで性能が向上することが明らかになっています。これに伴い、長文の取り扱いや、多数のユーザーによる同時利用の場面が増加しています。しかし、従来のTransformerアーキテクチャでは、文章を最小単位の「トークン」に分解し、全てのトークン間の関係を計算するため、過去のやり取りを保持するためのメモリアクセス負荷（KVキャッシュ）が増大し、処理速度が低下するという物理的な制約に直面していました。

PHOTONを支える2つの技術的特徴

PHOTON（Parallel Hierarchical Operation for TOp-down Networks）は、以下の2つの仕組みによって、計算効率の劇的な向上を実現しています。

階層的オペレーション: 文章を単なるトークンの羅列ではなく「意味のまとまり」単位で階層的に処理します。これにより、トークン同士の全組み合わせ計算を回避し、計算量を大幅に抑制します。
マルチクエリー統合技術: 同じ問題に対して少しずつ異なる複数の問いや回答候補を生成し、それらを統合して最良の回答を導き出します。これにより、1回の推論で安定した高い性能を得ることが可能になります。

実証実験で見えた圧倒的な処理能力と効率性

6億、9億、12億パラメータの3種類のモデルを用いた実験では、Transformerよりもメモリ使用量を抑えつつ、高いスループットを達成しました。特に12億パラメータのモデルにおいては、わずかな性能低下と引き換えに、マルチクエリー処理能力でTransformerの約475倍という数値を記録しています。また、1回の生成に使用するKVキャッシュが小さいため、同一のGPUメモリ上でより多くの並列生成を行える点も大きな利点です。検証では、9つのクエリーを束ねるだけで、従来のTransformerと同水準の性能に到達することが確認されました。

今後の展望と学術的評価

富士通が開発したこの新アーキテクチャは、マルチエージェントのような複雑な処理を低コストで実現する基盤となります。本成果は、自然言語処理分野における最高峰の国際会議「ACL 2026」（米サンディエゴ開催）のオーラルセッションでの発表が予定されており、学術的にもその先進性が高く評価されています。LLMの運用に必要なGPU数を大幅に削減できる可能性があることから、今後の商用利用におけるコスト構造の変革が注目されます。