Googleの第8世代TPU、学習用8tと推論用8iに分けた背景

Googleの今回のTPU発表が示したのは、単なる「もっと速いチップ」ではない。第8世代TPUは、学習用のTPU 8tと推論用のTPU 8iに分かれた。この分離はSKU整理ではなく、エージェント中心のワークロードがハードウェアを別々の方向へ引っ張り始めたという宣言に近い。片側では巨大モデルの学習を早く終わらせる必要があり、もう片側では複数エージェントが絡む推論ループを低遅延で回し続ける必要がある。

Googleの説明によれば、8tは正面突破型の構成だ。GoogleはTPU 8tについて、フロンティア級モデルの開発サイクルを数カ月から数週間へ縮めることを狙い、前世代比でpod当たりnearly 3xの計算性能を持つと説明する。単一superpodは9,600チップ、2 petabytesのshared high-bandwidth memory、121 exaflopsまで拡張できる。さらに10x faster storage accessとVirgo Network、JAX、Pathwaysを組み合わせ、より巨大なクラスタでもnear-linear scalingを目指すという。

一方の8iは、遅延と協調を抑える側の設計だ。Googleは、AIエージェントが推論、ツール呼び出し、相互連携を何度も繰り返す時代には、待ち時間そのものがシステム全体の問題になると見る。そこで8iには288 GBのhigh-bandwidth memoryと384 MBのon-chip SRAMを積み、on-chip SRAMは前世代比で3xに増やした。Interconnect帯域は19.2 Tb/sへ倍増し、新しいCollectives Acceleration Engineはon-chip latencyを最大5x減らせるという。マルチエージェント推論でミリ秒単位の無駄がどれだけ重いかを、ハードウェア側から解きにいった形だ。

この仕様表が面白いのは、業界の向きがそのまま出ているからだ。いまクラウド事業者やモデル企業は、単一ベンチマークの最高点だけを見てチップを作っていない。連続する推論、検索、ツール利用、エージェント間の調整を、より安く、より安定して回す方向へインフラを組み替えている。Googleは今回の設計が、Google DeepMindとともにagentic workloadsとevolving model architecturesに対応するために作られたと明言した。これは「高速化」の一言では片づかない。

残る論点は供給と実運用だ。Googleは両チップとも今年後半のgeneral availabilityを見込むとしている。したがって本当の評価は、発表会のスライドではなく、外部顧客のワークロードでどこまで性能とgoodputが再現されるかで決まる。それでも、ここで見えた方向は明確だ。学習向けハードウェアはより巨大な共有メモリと97%超のgoodput目標へ、推論向けハードウェアはライブのエージェント系で待ち時間を削る方向へ、それぞれ別の最適化に踏み込んでいる。

Googleの第8世代TPU、学習用8tと推論用8iに分けた背景

Related Articles

TPU 8tと8i、HNが見た本質は「学習用と推論用を分けたこと」

AI data center発のRAM不足、HNはconsumer hardwareへの波及を見た

Google Cloud A4X Max、AI clusterを50,000 GPUと2倍networkへ広げた

Comments (0)

Leave a Comment

Related Articles

TPU 8tと8i、HNが見た本質は「学習用と推論用を分けたこと」

AI data center発のRAM不足、HNはconsumer hardwareへの波及を見た

Google Cloud A4X Max、AI clusterを50,000 GPUと2倍networkへ広げた