Google、第8世代TPUを二本立て 学習は8t、推論は8i
Original: Our eighth generation TPUs: two chips for the agentic era View original →
Googleは、学習も推論も一つのチップで丸ごと片づける発想から少し踏み出した。4月28日に示した第8世代TPUの要点は、数字そのものより役割分担にある。TPU 8tは巨大モデルの学習向け、TPU 8iは低遅延推論向けだ。AIエージェントは一度学習して終わる存在ではない。推論し、ツールを呼び、待ち合わせ、また考え直す。その反復が前提になる以上、学習最適化とサービング最適化を同じ設計で我慢するほどコストが膨らむ。Googleはその妥協をチップ設計の段階で切り分けた。元記事はOur eighth generation TPUs: two chips for the agentic era。
学習側の8tは、いかにもGoogleらしいスケールだ。Googleによれば、TPU 8tのsuperpodは9,600チップ、2 petabytesの共有高帯域メモリ、121 ExaFlopsまで伸びる。前世代比でpodあたりの計算性能はほぼ3倍、ストレージアクセスは10倍高速という。Virgo Network、JAX、Pathwaysを通じて、最大100万チップの単一論理クラスタまでほぼ線形に拡張できるとも書く。要するに、数カ月単位で回していた最先端学習を数週間へ圧縮しにきた。
一方の8iは、エージェント実運用で先に詰まる推論側を狙う。288 GBの高帯域メモリと384 MBのオンチップSRAMを組み合わせ、ICI帯域を19.2 Tb/sへ倍増し、Collectives Acceleration Engineでオンチップ遅延を最大5倍下げるという。ここで効くのはベンチマークの見栄えより、待ち時間とコストだ。Googleは前世代比でperformance-per-dollarが80%改善し、同じ費用でほぼ2倍の顧客ボリュームをさばけると説明している。
もっと大きい意味では、Googleがインフラの特化そのものを競争力に変えようとしている点が重要だ。両チップはAxion Arm系CPUホスト上で動き、Geminiや推論型モデルの負荷を前提に共同設計され、GoogleのAI Hypercomputerに組み込まれる。開発者や企業が欲しいのは、単に強いモデルへの入口ではない。エージェントが常時動く本番で、遅延、メモリ、電力の計算が崩れないことだ。年内の一般提供まで検証は必要だが、今回の打ち出しだけでも論点は変わった。これからのチップ競争は、誰が一番派手な数字を出すかではなく、誰がエージェント群を最も安く、安定して走らせるかに移っていく。
Related Articles
MetaがAWS Gravitonコアを数千万単位で導入し、AIインフラ競争の主戦場をGPUの外側へ広げた。Metaは、エージェントAIが計画・ツール呼び出し・データ移動といったCPU集約処理を膨らませているとして、Graviton5を次の運用基盤に据える。
企業向けAIの勝負は、モデル単体の比較から運用スタック全体の設計へ移っている。Google Cloudは2026年4月24日のCloud Next '26総括で、Gemini Enterprise Agent Platform、Workspace Intelligence、TPU 8t・8i、Virgo Networkを一体のエージェント基盤として打ち出した。
Google DeepMindの新しい学習方式が重要なのは、データセンター境界そのものが最前線の制約になっているからだ。Decoupled DiLoCoは2-5Gbpsの広域回線上で米国4地域にまたがる12B Gemmaを学習し、従来の同期方式より20倍超高速で、平均精度64.1%と基準線64.4%にほぼ並んだ。
Comments (0)
No comments yet. Be the first to comment!