구글 8세대 TPU, 학습·추론 이원화… 에이전트 시대 노린 8t·8i
Original: Our eighth generation TPUs: two chips for the agentic era View original →
구글은 AI 칩 하나로 학습과 추론을 모두 무난하게 처리하겠다는 접근에서 한발 물러섰다. 4월 28일 공개한 8세대 TPU의 핵심은 숫자보다 구조다. TPU 8t는 거대 모델 학습용, TPU 8i는 저지연 추론용으로 분리했다. 에이전트가 여러 단계를 오가며 추론하고 도구를 호출하고 다시 응답하는 시대에는, 학습 최적화와 서빙 최적화를 한 칩에서 절충하는 방식이 점점 비싸진다. 구글은 그 절충을 칩 설계 단계에서 끊겠다고 선언한 셈이다. 원문은 Our eighth generation TPUs: two chips for the agentic era.
학습용 8t는 숫자부터 과감하다. 구글은 TPU 8t 슈퍼팟이 9,600칩, 2 petabytes의 공유 고대역폭 메모리, 121 ExaFlops 규모로 확장된다고 적었다. 이전 세대 대비 팟당 연산 성능은 거의 3배, 저장장치 접근은 10배 빠르다고 한다. Virgo Network, JAX, Pathways 조합으로 최대 100만 칩 단일 논리 클러스터까지 근사 선형 확장을 겨냥한다는 설명도 붙였다. 요약하면, 몇 달씩 잡아먹던 초거대 학습 주기를 몇 주 단위로 줄이겠다는 메시지다.
8i는 다른 병목을 겨냥한다. 에이전트가 동시에 많이 붙는 추론 환경에서는 작은 지연이 전체 체감 성능을 무너뜨린다. 구글은 8i가 288 GB 고대역폭 메모리와 384 MB 온칩 SRAM을 묶고, ICI 대역폭을 19.2 Tb/s로 늘리고, Collectives Acceleration Engine으로 온칩 지연을 최대 5배 줄인다고 설명했다. 상업적 약속도 분명하다. 이전 세대 대비 performance-per-dollar는 80% 개선되고, 같은 비용으로 거의 두 배 고객 볼륨을 처리할 수 있다는 주장이다.
더 큰 그림은 구글이 하드웨어 특화 자체를 해자로 만들려 한다는 점이다. 두 칩 모두 Axion Arm 기반 CPU 호스트 위에서 돌고, Gemini와 추론형 모델의 요구를 염두에 두고 공동 설계됐으며, Google AI Hypercomputer 스택에 바로 묶인다. 개발자와 기업 고객에게는 모델 접속권보다 중요한 질문이 있다. 에이전트가 늘어날수록 메모리, 전력, 지연시간이 얼마만큼 통제되느냐는 질문이다. 구글이 올해 말 일반 공급 전까지 숫자를 더 다듬겠지만, 이번 공개만으로도 칩 경쟁의 논점은 바뀌었다. 이제는 누가 더 큰 칩을 내놓느냐보다, 누가 에이전트 떼굴떼굴 굴러가는 워크로드를 가장 싸고 안정적으로 돌리느냐가 더 중요해졌다.
Related Articles
Google은 기업용 AI가 시범 운영을 지나 실제 운영 단계로 넘어갔다는 신호를 던졌다. 4월 22일 Cloud Next 글에서 고객 직접 API 호출이 분당 160억 토큰을 넘었고, 2026년 머신러닝 연산 투자 가운데 절반 이상이 클라우드 사업으로 향한다고 적었다.
Meta가 AWS Graviton 코어 수천만 개를 들여오며 AI 인프라 전쟁의 축을 GPU 밖으로 넓혔다. 회사는 에이전트형 AI가 계획 수립, 툴 호출, 데이터 이동 같은 CPU 집약 구간을 키우고 있다며 Graviton5를 핵심 조합으로 제시했다.
HN은 이번 TorchTPU 글을 클라우드 홍보물로 읽지 않았다. 관심은 딱 하나였다. PyTorch 사용자가 초기화만 `tpu`로 바꿨을 때 정말 PyTorch처럼 움직이느냐였다.
Comments (0)
No comments yet. Be the first to comment!