AWS·Cerebras, Amazon Bedrock용 분리형 inference 스택 추진

무슨 일이 있었나

AWS와 Cerebras는 2026년 3월 13일 클라우드에서의 AI inference 속도와 성능 기준을 새로 세우겠다는 협업을 발표했다. 두 회사는 이 구성을 AWS 데이터센터에 배치하고 Amazon Bedrock을 통해 제공할 계획이며, 출시 시점은 '향후 몇 달 내'로 제시됐다.

핵심은 inference disaggregation이다. 일반적인 생성형 AI 추론은 prompt를 처리하는 prefill 단계와 토큰을 순차 생성하는 decode 단계로 나뉘는데, 두 단계는 요구하는 연산 특성이 크게 다르다. AWS는 Trainium 기반 서버를 prefill에, Cerebras는 CS-3 시스템을 decode에 최적화하고, 둘을 Elastic Fabric Adapter(EFA) 네트워킹으로 연결하겠다고 설명했다.

핵심 포인트

AWS는 이 구성이 Amazon Bedrock에서 제공되는 가장 빠른 inference 옵션이 될 것이라고 주장했다.
회사는 Trainium + CS-3 결합 방식이 현재 대안 대비 한 자릿수 수준이 아니라 order-of-magnitude 급 속도 향상을 낼 수 있다고 말했다.
올해 후반에는 선도적 open-source LLM과 Amazon Nova도 Cerebras 하드웨어에서 제공할 예정이라고 밝혔다.
AWS는 자신들이 Cerebras의 disaggregated inference를 제공하는 첫 번째 cloud provider이며, Bedrock에서 독점적으로 제공된다고 강조했다.

이 설계는 agent workflow와 real-time coding assistance처럼 응답 지연이 직접 생산성에 연결되는 워크로드에 특히 유리하다. AWS는 prompt를 빠르게 준비하는 작업과 토큰을 길게 뽑아내는 작업을 서로 다른 칩에 맡기면, 같은 인프라 투자에서도 더 높은 token throughput을 얻을 수 있다고 본다. 또한 이 구성은 AWS Nitro System 위에서 동작해 고객이 기대하는 보안·격리·운영 일관성을 유지한다고 덧붙였다.

왜 중요한가

최근 AI 경쟁의 초점이 training에서 inference economics로 이동하고 있다는 점에서 이번 발표는 의미가 크다. reasoning model과 agent형 애플리케이션은 토큰 생성 시간이 길고 상호작용 빈도가 높기 때문에, 단순 benchmark보다 실제 지연시간과 비용 구조가 더 중요해지고 있다.

Insights 관점에서 보면 AWS+Cerebras 협업은 GPU 대 GPU 경쟁이 아니라 워크로드를 분리해 최적 칩을 조합하는 방향으로 AI 인프라가 진화하고 있음을 보여준다. hyperscaler와 chip startup의 역할 분담이 더 정교해지면서, 앞으로는 model 선택만큼 inference path 설계 자체가 중요한 차별화 요소가 될 가능성이 크다.

특히 이번 구조는 단순히 더 빠른 칩을 추가하는 접근과 다르다. prefill과 decode의 병목을 분리해 각각 다른 silicon에 맞춘 뒤 네트워크로 다시 조립하는 방식이기 때문에, 향후 hyperscaler들이 AI 서비스를 구성하는 방식 자체를 바꿀 가능성이 있다. inference cost와 latency를 동시에 압박받는 enterprise 고객 입장에서는 실제 배포 전략에 바로 연결되는 뉴스다.

AWS·Cerebras, Amazon Bedrock용 분리형 inference 스택 추진

무슨 일이 있었나

핵심 포인트

왜 중요한가

Related Articles

NVIDIA ModelExpress, DeepSeek-V4 Pro 기동 시간을 8분에서 1분대로 단축

OpenAI·Amazon, Bedrock·Frontier·Trainium·투자를 한 묶음으로 결합

빠른 LLM 추론을 위한 두 가지 접근: 배치 최적화 vs 전용 칩