AWS·Cerebras, Amazon Bedrock용 분리형 inference 스택 추진
Original: AWS and Cerebras collaboration aims to set a new standard for AI inference speed and performance in the cloud View original →
무슨 일이 있었나
AWS와 Cerebras는 2026년 3월 13일 클라우드에서의 AI inference 속도와 성능 기준을 새로 세우겠다는 협업을 발표했다. 두 회사는 이 구성을 AWS 데이터센터에 배치하고 Amazon Bedrock을 통해 제공할 계획이며, 출시 시점은 '향후 몇 달 내'로 제시됐다.
핵심은 inference disaggregation이다. 일반적인 생성형 AI 추론은 prompt를 처리하는 prefill 단계와 토큰을 순차 생성하는 decode 단계로 나뉘는데, 두 단계는 요구하는 연산 특성이 크게 다르다. AWS는 Trainium 기반 서버를 prefill에, Cerebras는 CS-3 시스템을 decode에 최적화하고, 둘을 Elastic Fabric Adapter(EFA) 네트워킹으로 연결하겠다고 설명했다.
핵심 포인트
- AWS는 이 구성이 Amazon Bedrock에서 제공되는 가장 빠른 inference 옵션이 될 것이라고 주장했다.
- 회사는 Trainium + CS-3 결합 방식이 현재 대안 대비 한 자릿수 수준이 아니라 order-of-magnitude 급 속도 향상을 낼 수 있다고 말했다.
- 올해 후반에는 선도적 open-source LLM과 Amazon Nova도 Cerebras 하드웨어에서 제공할 예정이라고 밝혔다.
- AWS는 자신들이 Cerebras의 disaggregated inference를 제공하는 첫 번째 cloud provider이며, Bedrock에서 독점적으로 제공된다고 강조했다.
이 설계는 agent workflow와 real-time coding assistance처럼 응답 지연이 직접 생산성에 연결되는 워크로드에 특히 유리하다. AWS는 prompt를 빠르게 준비하는 작업과 토큰을 길게 뽑아내는 작업을 서로 다른 칩에 맡기면, 같은 인프라 투자에서도 더 높은 token throughput을 얻을 수 있다고 본다. 또한 이 구성은 AWS Nitro System 위에서 동작해 고객이 기대하는 보안·격리·운영 일관성을 유지한다고 덧붙였다.
왜 중요한가
최근 AI 경쟁의 초점이 training에서 inference economics로 이동하고 있다는 점에서 이번 발표는 의미가 크다. reasoning model과 agent형 애플리케이션은 토큰 생성 시간이 길고 상호작용 빈도가 높기 때문에, 단순 benchmark보다 실제 지연시간과 비용 구조가 더 중요해지고 있다.
Insights 관점에서 보면 AWS+Cerebras 협업은 GPU 대 GPU 경쟁이 아니라 워크로드를 분리해 최적 칩을 조합하는 방향으로 AI 인프라가 진화하고 있음을 보여준다. hyperscaler와 chip startup의 역할 분담이 더 정교해지면서, 앞으로는 model 선택만큼 inference path 설계 자체가 중요한 차별화 요소가 될 가능성이 크다.
특히 이번 구조는 단순히 더 빠른 칩을 추가하는 접근과 다르다. prefill과 decode의 병목을 분리해 각각 다른 silicon에 맞춘 뒤 네트워크로 다시 조립하는 방식이기 때문에, 향후 hyperscaler들이 AI 서비스를 구성하는 방식 자체를 바꿀 가능성이 있다. inference cost와 latency를 동시에 압박받는 enterprise 고객 입장에서는 실제 배포 전략에 바로 연결되는 뉴스다.
Related Articles
OpenAI frontier models와 Codex가 Amazon Bedrock에서 일반 제공으로 전환됐다. 100만 회 이상 조회된 공식 트윗은 기업 보안·컴플라이언스 흐름 안에서 OpenAI 도구를 쓰는 새 경로를 제시했다.
Amazon과 OpenAI는 2026년 2월 27일 Amazon Bedrock 기반 Stateful Runtime Environment, AWS를 통한 Frontier 유통, 장기 Trainium capacity를 포함한 multi-year strategic partnership를 발표했다. Amazon은 OpenAI에 $50 billion을 투자하겠다고도 밝혔다.
핵심은 모델 하나 더 늘었다는 소식이 아니다. OpenAI는 GPT-5.5, Codex, Amazon Bedrock Managed Agents를 AWS 제한 미리보기로 묶어, 기업이 보안·ID·조달 체계를 바꾸지 않고 frontier AI를 들이는 길을 열었다.