Google、第8世代TPUを二本立て　学習は8t、推論は8i

Googleは、学習も推論も一つのチップで丸ごと片づける発想から少し踏み出した。4月28日に示した第8世代TPUの要点は、数字そのものより役割分担にある。TPU 8tは巨大モデルの学習向け、TPU 8iは低遅延推論向けだ。AIエージェントは一度学習して終わる存在ではない。推論し、ツールを呼び、待ち合わせ、また考え直す。その反復が前提になる以上、学習最適化とサービング最適化を同じ設計で我慢するほどコストが膨らむ。Googleはその妥協をチップ設計の段階で切り分けた。元記事はOur eighth generation TPUs: two chips for the agentic era。

学習側の8tは、いかにもGoogleらしいスケールだ。Googleによれば、TPU 8tのsuperpodは9,600チップ、2 petabytesの共有高帯域メモリ、121 ExaFlopsまで伸びる。前世代比でpodあたりの計算性能はほぼ3倍、ストレージアクセスは10倍高速という。Virgo Network、JAX、Pathwaysを通じて、最大100万チップの単一論理クラスタまでほぼ線形に拡張できるとも書く。要するに、数カ月単位で回していた最先端学習を数週間へ圧縮しにきた。

一方の8iは、エージェント実運用で先に詰まる推論側を狙う。288 GBの高帯域メモリと384 MBのオンチップSRAMを組み合わせ、ICI帯域を19.2 Tb/sへ倍増し、Collectives Acceleration Engineでオンチップ遅延を最大5倍下げるという。ここで効くのはベンチマークの見栄えより、待ち時間とコストだ。Googleは前世代比でperformance-per-dollarが80%改善し、同じ費用でほぼ2倍の顧客ボリュームをさばけると説明している。

もっと大きい意味では、Googleがインフラの特化そのものを競争力に変えようとしている点が重要だ。両チップはAxion Arm系CPUホスト上で動き、Geminiや推論型モデルの負荷を前提に共同設計され、GoogleのAI Hypercomputerに組み込まれる。開発者や企業が欲しいのは、単に強いモデルへの入口ではない。エージェントが常時動く本番で、遅延、メモリ、電力の計算が崩れないことだ。年内の一般提供まで検証は必要だが、今回の打ち出しだけでも論点は変わった。これからのチップ競争は、誰が一番派手な数字を出すかではなく、誰がエージェント群を最も安く、安定して走らせるかに移っていく。

Google、第8世代TPUを二本立て　学習は8t、推論は8i

Related Articles

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Google Cloud、エージェント基盤とTPU、Workspace文脈を一つの企業スタックへ

DeepMind、4地域で12B訓練　同期型より20倍速い分散学習へ

Comments (0)

Leave a Comment

Related Articles

Meta、AWS Graviton数千万コア採用　エージェントAIのCPU不足に照準

Google Cloud、エージェント基盤とTPU、Workspace文脈を一つの企業スタックへ

DeepMind、4地域で12B訓練　同期型より20倍速い分散学習へ