학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점
Original: Our eighth generation TPUs: two chips for the agentic era View original →
숫자보다 분업이 더 크게 읽혔다
HN에서 Google의 8세대 TPU 글이 먹힌 이유는 121 ExaFlops 같은 숫자 때문만은 아니었다. 커뮤니티가 더 오래 붙잡은 건 TPU 8t와 TPU 8i를 학습용과 추론용으로 갈라놓은 설계였다. 에이전트 워크로드가 커질수록 학습과 서비스가 다른 병목을 드러내는데, Google이 그 차이를 하드웨어 수준에서 인정했다는 해석이 나왔다.
공개된 세부 사항도 꽤 선명하다. TPU 8t는 학습용으로 한 superpod를 9,600개 칩, 2PB shared high-bandwidth memory, 121 ExaFlops까지 확장한다. 이전 세대 대비 pod당 연산 성능은 거의 3배, 저장장치 접근은 10배 빨라졌고, goodput 목표는 97% 이상이다. TPU 8i는 추론용 설계다. 288GB HBM, 384MB 온칩 SRAM, 19.2Tb/s interconnect를 내세우고 이전 세대보다 performance-per-dollar를 80% 끌어올렸다고 한다. 두 칩 모두 performance-per-watt는 최대 2배, Axion Arm 호스트와 4세대 액체 냉각도 붙는다.
HN 댓글도 바로 그 부분을 물고 늘어졌다. 어떤 반응은 Gemini가 적은 토큰으로도 버티는 이유를 이런 인프라 설계와 연결했고, 또 다른 반응은 학습용과 추론용을 굳이 나눈 것 자체가 흥미롭다고 했다. 더 이상 하나의 칩이 모든 AI 워크로드를 맡는 척하지 않는다는 뜻이기 때문이다.
- 학습 클러스터는 scale-up bandwidth와 productive compute time이 중요하다
- 추론 클러스터는 지연 시간, 메모리 대역폭, 통신 비용이 더 직접적이다
- 에이전트 워크로드는 작은 비효율도 여러 단계에서 크게 불어난다
그래서 이 글은 데이터센터 자랑으로 소비되지 않았다. HN은 TPU 8t·8i를 reasoning 중심 서비스와 agent swarm 시대에 맞춰 인프라가 갈라지는 장면으로 읽었다. 앞으로 모델 경쟁은 큰 학습 수치만이 아니라, 추론과 서비스 단계에서 어떤 실리콘을 얼마나 잘 최적화하느냐로 더 많이 갈릴 가능성이 크다.
Related Articles
Googleは第8世代TPUを学習用8tと推論用8iに分けた。8tはpod当たりnearly 3xの計算性能と121 exaflopsを、8iは19.2 Tb/sの相互接続と最大5x低いオンチップ遅延を掲げ、エージェント時代に学習とサービングの要件が完全に分かれたことを示している。
OpenAIが米SECに非公開S-1を提出し、上場へ進むための手続きを始めた。X投稿は2.5M超の表示を集め、AI研究所の資本調達が市場の焦点になっていることを示した。
NVIDIADCは2026年3月17日のX投稿で、Groq 3 LPXをVera Rubin platform向けのrack-scale low-latency inference acceleratorとして紹介した。NVIDIAの3月16日付press releaseとtechnical blogによれば、LPXは256基のLPU、128GBのon-chip SRAM、640 TB/sのscale-up bandwidthを備え、Vera Rubin NVL72と組み合わせてagentic AI向けのheterogeneous inference pathを形成する。