Meta、MTIA custom silicon roadmapを加速 2年で4世代チップを展開
Original: Expanding Meta’s Custom Silicon to Power Our AI Workloads View original →
MetaはMarch 11, 2026、custom silicon戦略の大幅な拡張を発表し、今後2年のうちにMTIA chipの4世代を開発・展開すると明らかにした。MTIAはMeta Training and Inference Acceleratorの略で、ranking、recommendation、GenAI workloadをMeta自身のapplication patternに最適化したinfrastructure上でより効率的に処理するための中核として位置づけられている。
同社によると、organic contentとadsのinference workload向けには、すでにhundreds of thousands規模のMTIA chipを展開している。Metaは、これらが自社workload向けに設計したcustom full-stack systemの一部であり、general-purpose AI chipだけに依存する場合よりも高いcompute efficiencyと低コストを狙えるとしている。GenAI inference需要が急増する中、この効率性の主張は単なるhardware内製化以上の意味を持つ。
主なポイント
- Metaは2年でMTIA 4世代を展開する計画を示した。
- feedsとadsのinference向けに、すでにhundreds of thousands規模のMTIA chipが使われている。
- MTIA 300はproduction段階にあり、MTIA 400・450・500は将来のGenAI inference需要に向けられる。
- rapid iteration、inference-first design、PyTorch・vLLM・Triton・OCPなどのindustry standard活用が戦略の柱になっている。
Metaはroadmapも示した。MTIA 300はすでにrankingとrecommendation training向けにproduction投入済みで、MTIA 400、450、500はすべてのworkloadに対応できる一方、当面から2027年にかけては主にGenAI inference productionで使う計画だという。さらに、これらのchipは既存rack infrastructureに差し込めるmodular designを採用しており、世代切り替え時のtime-to-production短縮を狙う。
戦略上の特徴はスピードにある。Metaは、AI chipが通常1〜2年周期で更新されるのに対し、6カ月以下のcadenceで新世代を出せる体制を整えたと説明した。加えて、設計思想をinference-firstに置き、PyTorch、vLLM、Triton、Open Compute Projectなどのindustry standard上に構築することで、社内導入を滑らかにする方針も示している。
大きな文脈では、hyperscalerがAI chipを単なるvendor調達ではなく、より深い垂直統合の一部として扱い始めたことを意味する。Metaはmodel serving economics、rack design、software compatibility、application-specific inference behaviorを同時に最適化するアプローチを打ち出している。長期的な成果は実行力次第だが、今回のroadmapだけでもGenAI inferenceがMeta infrastructure planningの中心へ移っていることが分かる。
出典: Meta
Related Articles
Metaは2026年3月11日、MTIA 300からMTIA 500まで続くin-house AI chipのロードマップを公表した。Metaはcustom siliconを通じて、ranking、recommendation、そして特にGenAI inferenceのコスト構造を自社規模に最適化しようとしている。
Metaはnext-gen AIの拡張にはcustom siliconが重要だとしてMeta Training and Inference Accelerator(MTIA)のロードマップを公開した。従来のchip cycleより速いmodel architectureの変化に対応するため、2年間で4世代を進めたと説明している。
Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。
Comments (0)
No comments yet. Be the first to comment!