학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점
Original: Our eighth generation TPUs: two chips for the agentic era View original →
숫자보다 분업이 더 크게 읽혔다
HN에서 Google의 8세대 TPU 글이 먹힌 이유는 121 ExaFlops 같은 숫자 때문만은 아니었다. 커뮤니티가 더 오래 붙잡은 건 TPU 8t와 TPU 8i를 학습용과 추론용으로 갈라놓은 설계였다. 에이전트 워크로드가 커질수록 학습과 서비스가 다른 병목을 드러내는데, Google이 그 차이를 하드웨어 수준에서 인정했다는 해석이 나왔다.
공개된 세부 사항도 꽤 선명하다. TPU 8t는 학습용으로 한 superpod를 9,600개 칩, 2PB shared high-bandwidth memory, 121 ExaFlops까지 확장한다. 이전 세대 대비 pod당 연산 성능은 거의 3배, 저장장치 접근은 10배 빨라졌고, goodput 목표는 97% 이상이다. TPU 8i는 추론용 설계다. 288GB HBM, 384MB 온칩 SRAM, 19.2Tb/s interconnect를 내세우고 이전 세대보다 performance-per-dollar를 80% 끌어올렸다고 한다. 두 칩 모두 performance-per-watt는 최대 2배, Axion Arm 호스트와 4세대 액체 냉각도 붙는다.
HN 댓글도 바로 그 부분을 물고 늘어졌다. 어떤 반응은 Gemini가 적은 토큰으로도 버티는 이유를 이런 인프라 설계와 연결했고, 또 다른 반응은 학습용과 추론용을 굳이 나눈 것 자체가 흥미롭다고 했다. 더 이상 하나의 칩이 모든 AI 워크로드를 맡는 척하지 않는다는 뜻이기 때문이다.
- 학습 클러스터는 scale-up bandwidth와 productive compute time이 중요하다
- 추론 클러스터는 지연 시간, 메모리 대역폭, 통신 비용이 더 직접적이다
- 에이전트 워크로드는 작은 비효율도 여러 단계에서 크게 불어난다
그래서 이 글은 데이터센터 자랑으로 소비되지 않았다. HN은 TPU 8t·8i를 reasoning 중심 서비스와 agent swarm 시대에 맞춰 인프라가 갈라지는 장면으로 읽었다. 앞으로 모델 경쟁은 큰 학습 수치만이 아니라, 추론과 서비스 단계에서 어떤 실리콘을 얼마나 잘 최적화하느냐로 더 많이 갈릴 가능성이 크다.
Related Articles
OpenAI가 SEC에 비공개 S-1을 제출하며 상장 준비를 공식화했다. 회사는 2.5M 조회수를 넘긴 게시물에서 일정은 정하지 않았고, 비상장으로 남을 가능성도 열어뒀다고 설명했다.
Anthropic은 2026년 4월 7일 Google·Broadcom과 차세대 TPU 용량을 수 기가와트 규모로 확보하는 계약을 맺었다고 밝혔다. 같은 발표에서 연환산 매출이 300억 달러를 넘었고, 연간 100만 달러 이상을 쓰는 기업 고객도 1,000곳을 넘어섰다고 설명했다.
NVIDIADC는 2026년 3월 17일 X에서 Groq 3 LPX를 Vera Rubin platform용 rack-scale low-latency inference accelerator로 소개했다. NVIDIA의 3월 16일 press release와 technical blog는 LPX가 256개의 LPU, 128GB on-chip SRAM, 640 TB/s scale-up bandwidth를 갖추고 Vera Rubin NVL72와 함께 agentic AI용 heterogeneous inference path를 형성한다고 설명한다.