학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점
Original: Our eighth generation TPUs: two chips for the agentic era View original →
숫자보다 분업이 더 크게 읽혔다
HN에서 Google의 8세대 TPU 글이 먹힌 이유는 121 ExaFlops 같은 숫자 때문만은 아니었다. 커뮤니티가 더 오래 붙잡은 건 TPU 8t와 TPU 8i를 학습용과 추론용으로 갈라놓은 설계였다. 에이전트 워크로드가 커질수록 학습과 서비스가 다른 병목을 드러내는데, Google이 그 차이를 하드웨어 수준에서 인정했다는 해석이 나왔다.
공개된 세부 사항도 꽤 선명하다. TPU 8t는 학습용으로 한 superpod를 9,600개 칩, 2PB shared high-bandwidth memory, 121 ExaFlops까지 확장한다. 이전 세대 대비 pod당 연산 성능은 거의 3배, 저장장치 접근은 10배 빨라졌고, goodput 목표는 97% 이상이다. TPU 8i는 추론용 설계다. 288GB HBM, 384MB 온칩 SRAM, 19.2Tb/s interconnect를 내세우고 이전 세대보다 performance-per-dollar를 80% 끌어올렸다고 한다. 두 칩 모두 performance-per-watt는 최대 2배, Axion Arm 호스트와 4세대 액체 냉각도 붙는다.
HN 댓글도 바로 그 부분을 물고 늘어졌다. 어떤 반응은 Gemini가 적은 토큰으로도 버티는 이유를 이런 인프라 설계와 연결했고, 또 다른 반응은 학습용과 추론용을 굳이 나눈 것 자체가 흥미롭다고 했다. 더 이상 하나의 칩이 모든 AI 워크로드를 맡는 척하지 않는다는 뜻이기 때문이다.
- 학습 클러스터는 scale-up bandwidth와 productive compute time이 중요하다
- 추론 클러스터는 지연 시간, 메모리 대역폭, 통신 비용이 더 직접적이다
- 에이전트 워크로드는 작은 비효율도 여러 단계에서 크게 불어난다
그래서 이 글은 데이터센터 자랑으로 소비되지 않았다. HN은 TPU 8t·8i를 reasoning 중심 서비스와 agent swarm 시대에 맞춰 인프라가 갈라지는 장면으로 읽었다. 앞으로 모델 경쟁은 큰 학습 수치만이 아니라, 추론과 서비스 단계에서 어떤 실리콘을 얼마나 잘 최적화하느냐로 더 많이 갈릴 가능성이 크다.
Related Articles
중요한 점은 AI infrastructure 경쟁이 단일 GPU rental이 아니라 supercomputer급 managed cluster로 이동하고 있다는 데 있다. Google Cloud는 A4X Max bare-metal instance가 최대 50,000 GPU cluster와 이전 세대 대비 2배 network bandwidth를 지원한다고 적었다.
NVIDIADC는 2026년 3월 17일 X에서 Groq 3 LPX를 Vera Rubin platform용 rack-scale low-latency inference accelerator로 소개했다. NVIDIA의 3월 16일 press release와 technical blog는 LPX가 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖추고 Vera Rubin NVL72와 함께 agentic AI용 heterogeneous inference path를 형성한다고 설명한다.
Anthropic은 2026년 4월 7일 Google·Broadcom과 차세대 TPU 용량을 수 기가와트 규모로 확보하는 계약을 맺었다고 밝혔다. 같은 발표에서 연환산 매출이 300억 달러를 넘었고, 연간 100만 달러 이상을 쓰는 기업 고객도 1,000곳을 넘어섰다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!