구글 TPU 8세대, 훈련용 8t·추론용 8i로 갈라진 배경

Google의 이번 TPU 발표가 보여주는 메시지는 단순히 "더 빠른 칩"이 아니다. 8세대 TPU는 훈련용 TPU 8t와 추론용 TPU 8i로 갈라졌다. 이 분리는 제품 라인업 정리가 아니라, 에이전트 중심 워크로드가 하드웨어를 서로 다른 방향으로 끌어당기고 있다는 선언에 가깝다. 한쪽은 거대한 모델 학습을 더 빨리 끝내야 하고, 다른 한쪽은 여러 에이전트가 얽힌 추론 루프를 낮은 지연으로 유지해야 한다.

Google의 TPU 8세대 글에서 8t는 정면 승부형 사양으로 나온다. Google은 TPU 8t가 frontier 모델 개발 주기를 수개월에서 수주로 줄이도록 설계됐고, 이전 세대 대비 pod당 compute 성능이 nearly 3x라고 설명한다. 단일 superpod는 9,600개 칩, 2 petabytes의 shared high bandwidth memory, 121 ExaFlops까지 확장된다. 여기에 10x faster storage access와 Virgo Network, JAX, Pathways를 조합해 훨씬 큰 클러스터에서도 near-linear scaling을 겨냥한다고 적었다.

반대로 8i는 지연과 협업을 잡는 쪽이다. Google은 AI 에이전트가 여러 단계의 추론, 툴 호출, 에이전트 간 협업을 반복하는 시대에는 대기 시간이 시스템 전체 문제로 번진다고 본다. 그래서 8i에는 288 GB high-bandwidth memory, 384 MB on-chip SRAM을 넣었고, on-chip SRAM은 이전 세대 대비 3x로 키웠다. Interconnect 대역폭은 19.2 Tb/s로 두 배가 됐고, 새로운 Collectives Acceleration Engine은 on-chip latency를 최대 5x 줄인다고 밝혔다. 다중 에이전트 서빙에서 밀리초가 왜 중요한지 하드웨어 수준에서 답을 낸 셈이다.

이 사양표가 흥미로운 이유는 산업의 방향이 그대로 드러나기 때문이다. 이제 클라우드 사업자와 모델 기업은 단일 벤치마크 최고점만 보고 칩을 설계하지 않는다. 연속적인 추론, 검색, 도구 사용, 에이전트 간 조율이 반복되는 루프를 더 싸고 더 안정적으로 돌리는 쪽으로 인프라가 재배열되고 있다. Google은 이번 설계가 Google DeepMind와 함께 agentic workloads와 evolving model architectures를 감당하도록 만들어졌다고 못 박았다.

남은 변수는 실제 공급과 운영이다. Google은 두 칩 모두 올해 후반 general availability를 예고했다. 결국 진짜 평가는 출시 행사 무대가 아니라, 외부 고객 워크로드에서 얼마나 많은 성능과 goodput이 재현되는지에서 갈린다. 그럼에도 이번 발표가 남긴 결론은 선명하다. 학습용 칩은 더 큰 메모리 풀과 97%를 넘는 goodput 목표로 가고, 추론용 칩은 에이전트 시스템의 대기실 효과를 없애는 방향으로 재설계되고 있다.

구글 TPU 8세대, 훈련용 8t·추론용 8i로 갈라진 배경

Related Articles

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

AI data center가 끌어올린 RAM 부족, HN은 consumer hardware 비용을 봤다

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다

Comments (0)

Leave a Comment

Related Articles

학습용과 추론용을 갈랐다, TPU 8t·8i에 HN이 주목한 지점

AI data center가 끌어올린 RAM 부족, HN은 consumer hardware 비용을 봤다

Google Cloud A4X Max, AI cluster를 50,000 GPU와 2배 network로 키웠다