Googleの第8世代TPU、学習用8tと推論用8iに分けた背景
Original: Our eighth generation TPUs: two chips for the agentic era View original →
Googleの今回のTPU発表が示したのは、単なる「もっと速いチップ」ではない。第8世代TPUは、学習用のTPU 8tと推論用のTPU 8iに分かれた。この分離はSKU整理ではなく、エージェント中心のワークロードがハードウェアを別々の方向へ引っ張り始めたという宣言に近い。片側では巨大モデルの学習を早く終わらせる必要があり、もう片側では複数エージェントが絡む推論ループを低遅延で回し続ける必要がある。
Googleの説明によれば、8tは正面突破型の構成だ。GoogleはTPU 8tについて、フロンティア級モデルの開発サイクルを数カ月から数週間へ縮めることを狙い、前世代比でpod当たりnearly 3xの計算性能を持つと説明する。単一superpodは9,600チップ、2 petabytesのshared high-bandwidth memory、121 exaflopsまで拡張できる。さらに10x faster storage accessとVirgo Network、JAX、Pathwaysを組み合わせ、より巨大なクラスタでもnear-linear scalingを目指すという。
一方の8iは、遅延と協調を抑える側の設計だ。Googleは、AIエージェントが推論、ツール呼び出し、相互連携を何度も繰り返す時代には、待ち時間そのものがシステム全体の問題になると見る。そこで8iには288 GBのhigh-bandwidth memoryと384 MBのon-chip SRAMを積み、on-chip SRAMは前世代比で3xに増やした。Interconnect帯域は19.2 Tb/sへ倍増し、新しいCollectives Acceleration Engineはon-chip latencyを最大5x減らせるという。マルチエージェント推論でミリ秒単位の無駄がどれだけ重いかを、ハードウェア側から解きにいった形だ。
この仕様表が面白いのは、業界の向きがそのまま出ているからだ。いまクラウド事業者やモデル企業は、単一ベンチマークの最高点だけを見てチップを作っていない。連続する推論、検索、ツール利用、エージェント間の調整を、より安く、より安定して回す方向へインフラを組み替えている。Googleは今回の設計が、Google DeepMindとともにagentic workloadsとevolving model architecturesに対応するために作られたと明言した。これは「高速化」の一言では片づかない。
残る論点は供給と実運用だ。Googleは両チップとも今年後半のgeneral availabilityを見込むとしている。したがって本当の評価は、発表会のスライドではなく、外部顧客のワークロードでどこまで性能とgoodputが再現されるかで決まる。それでも、ここで見えた方向は明確だ。学習向けハードウェアはより巨大な共有メモリと97%超のgoodput目標へ、推論向けハードウェアはライブのエージェント系で待ち時間を削る方向へ、それぞれ別の最適化に踏み込んでいる。
Related Articles
HNはTPU 8tと8iを巨大な数値競争としてではなく、エージェント時代のインフラが学習用と推論用に分かれ始めた合図として読んだ。コメントも電力効率、メモリ壁、遅延の話に長く留まった。
HNがこのRAM shortage storyに反応した理由は、AI data center向けHBM需要がphones、laptops、handheldsの価格にもつながるという物理的な連鎖だった。
重要なのは、AI infrastructureの競争が単体GPU rentalからsupercomputer級のmanaged clusterへ移っていることだ。Google CloudはA4X Max bare-metal instanceが最大50,000 GPU clusterと従来比2倍のnetwork bandwidthを支えると書いた。
Comments (0)
No comments yet. Be the first to comment!