학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

숫자보다 분업이 더 크게 읽혔다

HN에서 Google의 8세대 TPU 글이 먹힌 이유는 121 ExaFlops 같은 숫자 때문만은 아니었다. 커뮤니티가 더 오래 붙잡은 건 TPU 8t와 TPU 8i를 학습용과 추론용으로 갈라놓은 설계였다. 에이전트 워크로드가 커질수록 학습과 서비스가 다른 병목을 드러내는데, Google이 그 차이를 하드웨어 수준에서 인정했다는 해석이 나왔다.

공개된 세부 사항도 꽤 선명하다. TPU 8t는 학습용으로 한 superpod를 9,600개 칩, 2PB shared high-bandwidth memory, 121 ExaFlops까지 확장한다. 이전 세대 대비 pod당 연산 성능은 거의 3배, 저장장치 접근은 10배 빨라졌고, goodput 목표는 97% 이상이다. TPU 8i는 추론용 설계다. 288GB HBM, 384MB 온칩 SRAM, 19.2Tb/s interconnect를 내세우고 이전 세대보다 performance-per-dollar를 80% 끌어올렸다고 한다. 두 칩 모두 performance-per-watt는 최대 2배, Axion Arm 호스트와 4세대 액체 냉각도 붙는다.

HN 댓글도 바로 그 부분을 물고 늘어졌다. 어떤 반응은 Gemini가 적은 토큰으로도 버티는 이유를 이런 인프라 설계와 연결했고, 또 다른 반응은 학습용과 추론용을 굳이 나눈 것 자체가 흥미롭다고 했다. 더 이상 하나의 칩이 모든 AI 워크로드를 맡는 척하지 않는다는 뜻이기 때문이다.

학습 클러스터는 scale-up bandwidth와 productive compute time이 중요하다
추론 클러스터는 지연 시간, 메모리 대역폭, 통신 비용이 더 직접적이다
에이전트 워크로드는 작은 비효율도 여러 단계에서 크게 불어난다

그래서 이 글은 데이터센터 자랑으로 소비되지 않았다. HN은 TPU 8t·8i를 reasoning 중심 서비스와 agent swarm 시대에 맞춰 인프라가 갈라지는 장면으로 읽었다. 앞으로 모델 경쟁은 큰 학습 수치만이 아니라, 추론과 서비스 단계에서 어떤 실리콘을 얼마나 잘 최적화하느냐로 더 많이 갈릴 가능성이 크다.

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

숫자보다 분업이 더 크게 읽혔다

Related Articles

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시

Anthropic, 2027년부터 Google·Broadcom과 차세대 TPU 수 GW 확보

Comments (0)

Leave a Comment

Related Articles

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다

NVIDIA, Groq 3 LPX를 Vera Rubin용 low-latency inference rack으로 제시
AI sources.twitter Apr 2, 2026 1 min read

Anthropic, 2027년부터 Google·Broadcom과 차세대 TPU 수 GW 확보
AI sources.twitter Apr 7, 2026 1 min read