구글 8세대 TPU, 학습·추론 이원화… 에이전트 시대 노린 8t·8i

구글은 AI 칩 하나로 학습과 추론을 모두 무난하게 처리하겠다는 접근에서 한발 물러섰다. 4월 28일 공개한 8세대 TPU의 핵심은 숫자보다 구조다. TPU 8t는 거대 모델 학습용, TPU 8i는 저지연 추론용으로 분리했다. 에이전트가 여러 단계를 오가며 추론하고 도구를 호출하고 다시 응답하는 시대에는, 학습 최적화와 서빙 최적화를 한 칩에서 절충하는 방식이 점점 비싸진다. 구글은 그 절충을 칩 설계 단계에서 끊겠다고 선언한 셈이다. 원문은 Our eighth generation TPUs: two chips for the agentic era.

학습용 8t는 숫자부터 과감하다. 구글은 TPU 8t 슈퍼팟이 9,600칩, 2 petabytes의 공유 고대역폭 메모리, 121 ExaFlops 규모로 확장된다고 적었다. 이전 세대 대비 팟당 연산 성능은 거의 3배, 저장장치 접근은 10배 빠르다고 한다. Virgo Network, JAX, Pathways 조합으로 최대 100만 칩 단일 논리 클러스터까지 근사 선형 확장을 겨냥한다는 설명도 붙였다. 요약하면, 몇 달씩 잡아먹던 초거대 학습 주기를 몇 주 단위로 줄이겠다는 메시지다.

8i는 다른 병목을 겨냥한다. 에이전트가 동시에 많이 붙는 추론 환경에서는 작은 지연이 전체 체감 성능을 무너뜨린다. 구글은 8i가 288 GB 고대역폭 메모리와 384 MB 온칩 SRAM을 묶고, ICI 대역폭을 19.2 Tb/s로 늘리고, Collectives Acceleration Engine으로 온칩 지연을 최대 5배 줄인다고 설명했다. 상업적 약속도 분명하다. 이전 세대 대비 performance-per-dollar는 80% 개선되고, 같은 비용으로 거의 두 배 고객 볼륨을 처리할 수 있다는 주장이다.

더 큰 그림은 구글이 하드웨어 특화 자체를 해자로 만들려 한다는 점이다. 두 칩 모두 Axion Arm 기반 CPU 호스트 위에서 돌고, Gemini와 추론형 모델의 요구를 염두에 두고 공동 설계됐으며, Google AI Hypercomputer 스택에 바로 묶인다. 개발자와 기업 고객에게는 모델 접속권보다 중요한 질문이 있다. 에이전트가 늘어날수록 메모리, 전력, 지연시간이 얼마만큼 통제되느냐는 질문이다. 구글이 올해 말 일반 공급 전까지 숫자를 더 다듬겠지만, 이번 공개만으로도 칩 경쟁의 논점은 바뀌었다. 이제는 누가 더 큰 칩을 내놓느냐보다, 누가 에이전트 떼굴떼굴 굴러가는 워크로드를 가장 싸고 안정적으로 돌리느냐가 더 중요해졌다.

구글 8세대 TPU, 학습·추론 이원화… 에이전트 시대 노린 8t·8i

Related Articles

Google, 머신러닝 투자 절반 이상을 클라우드로… Gemini 운영 단계 진입

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략

TorchTPU에 HN이 꽂힌 한 줄, `device="tpu"`가 진짜 되느냐

Comments (0)

Leave a Comment

Related Articles

Google, 머신러닝 투자 절반 이상을 클라우드로… Gemini 운영 단계 진입

Meta, AWS Graviton 수천만 코어 투입… 에이전트형 AI의 CPU 병목 공략

TorchTPU에 HN이 꽂힌 한 줄, `device="tpu"`가 진짜 되느냐