Meta, MTIA custom silicon 로드맵 가속… 2년 내 4세대 칩 전개
Original: Expanding Meta’s Custom Silicon to Power Our AI Workloads View original →
Meta는 March 11, 2026 custom silicon 전략을 대폭 확장하겠다고 밝히며 향후 2년 안에 MTIA 칩 4세대를 개발하고 배치하겠다고 발표했다. MTIA는 Meta Training and Inference Accelerator의 약자로, ranking, recommendation, GenAI workload를 자사 서비스 패턴에 맞춘 인프라에서 더 효율적으로 처리하기 위한 핵심 축으로 제시됐다.
회사는 organic content와 ads에 대한 inference workload 전반에 이미 hundreds of thousands 규모의 MTIA 칩을 배치했다고 설명했다. Meta에 따르면 이 칩들은 내부 workload에 맞춰 설계된 custom full-stack system의 일부이며, general-purpose AI chip에만 의존하는 경우보다 더 높은 compute efficiency와 낮은 비용 구조를 노릴 수 있다. GenAI inference 수요가 빠르게 커지는 상황에서 이 비용 논리는 단순한 hardware 자립 이상의 의미를 갖는다.
핵심 내용
- Meta는 2년 안에 MTIA 4세대를 전개할 계획이다.
- 이미 feeds와 ads inference에 hundreds of thousands 규모의 MTIA 칩이 투입돼 있다.
- MTIA 300은 production 단계이며, MTIA 400·450·500은 향후 GenAI inference 수요 대응의 중심이 될 전망이다.
- 전략의 축은 rapid iteration, inference-first design, 그리고 PyTorch·vLLM·Triton·OCP 같은 industry standard 활용이다.
Meta는 로드맵도 함께 공개했다. MTIA 300은 이미 ranking과 recommendation training에 production으로 쓰이고 있으며, MTIA 400, 450, 500은 모든 workload를 처리할 수 있지만 가까운 시기와 2027까지는 주로 GenAI inference production에 활용할 계획이라고 밝혔다. 또한 이 칩들이 기존 rack infrastructure에 바로 들어갈 수 있는 modular design을 갖고 있어 세대 전환 때 time-to-production을 줄일 수 있다고 덧붙였다.
전략에서 눈에 띄는 부분은 속도다. Meta는 일반적으로 1~2년 주기로 나오는 AI chip cycle보다 훨씬 빠른, 6개월 이하 cadence로 새 세대를 내놓을 수 있는 체계를 갖췄다고 설명했다. 동시에 설계를 inference-first로 가져가고, PyTorch, vLLM, Triton, Open Compute Project 같은 industry standard 위에 구축해 내부 도입 마찰을 낮추겠다는 입장도 밝혔다.
더 큰 그림에서 보면 hyperscaler가 AI chip을 단순 조달 품목으로 보지 않기 시작했다는 의미가 있다. Meta는 model serving economics, rack design, software compatibility, application-specific inference behavior를 함께 최적화하는 수직 통합형 접근을 강조하고 있다. 실제 성과는 향후 실행에 달려 있겠지만, 이번 로드맵만으로도 GenAI inference가 Meta 인프라 계획의 중심으로 이동했음을 보여 준다.
출처: Meta
Related Articles
Meta는 2026년 3월 11일 MTIA 300부터 MTIA 500까지 이어지는 in-house AI chip 로드맵을 공개했다. 회사는 custom silicon을 통해 ranking, recommendation, 그리고 특히 GenAI inference의 비용 구조를 Meta 규모에 맞게 최적화하려 하고 있다.
Meta는 next-gen AI 확장에 custom silicon이 필수라며 Meta Training and Inference Accelerator(MTIA) 로드맵을 공개했다. 회사는 전통적인 chip cycle과 빠른 model architecture 변화의 간격을 줄이기 위해 2년 만에 4세대를 출시했다고 설명했다.
Together AI는 March 12, 2026에 real-time voice agent용 one-cloud stack을 공개한다고 밝혔다. 공개 자료에는 under-500ms latency, 25+ region 확장, 그리고 voice-agent deployment에서 time-to-first-64-tokens를 77ms까지 낮춘 kernel 최적화 사례가 포함돼 있다.
Comments (0)
No comments yet. Be the first to comment!