Meta、rankingとGenAI inference向けにMTIA 4世代ロードマップを提示
Original: Four MTIA Chips in Two Years: Scaling AI Experiences for Billions View original →
Metaが発表したこと
Metaは2026年3月11日、自社開発のMeta Training and Inference Accelerator、つまりMTIAファミリーの詳細なロードマップを公開し、custom siliconが数十億ユーザー向けAI productを支える中核になりつつあると説明した。Metaによれば、同社はすでにhundreds of thousands規模のMTIA chipをproductionに投入し、複数のinternal modelを動かし、Llamaのようなlarge language modelでも検証を進めている。今後はMTIA 300、400、450、500という4世代を連続的に前進させる。
このロードマップが示すのは、MetaがAI hardwareを単発の長期賭けとして扱っていないということだ。rankingとrecommendation中心のworkloadから、よりmemory帯域を要求するgenerative inference中心のworkloadへ急速に移行する中で、hardwareをより短い周期で更新しようとしている。Metaは、これらの世代がすでに投入済みか、2026年と2027年に順次投入予定だとしている。
MTIAラインで何が変わるのか
Metaによれば、MTIA 300はすでにrankingとrecommendation trainingでproduction利用されている。MTIA 400はその土台を広げ、より広いGenAI workloadを支え、72-acceleratorのscale-up domainを持つ。MTIA 450はさらにGenAI inferenceに最適化され、MTIA 400比でhigh-bandwidth memory bandwidthを2倍にする。続くMTIA 500は2027年の投入が予定され、MTIA 450比でHBM bandwidthをさらに50%高め、HBM capacityを最大80%増やし、MX4 FLOPSも43%引き上げる。
Metaはまた、MTIA 300からMTIA 500までの間にHBM bandwidthが4.5x、compute FLOPSが25x伸びると述べている。数字も大きいが、より重要なのは設計思想だ。Metaは後続世代を、大規模trainingの副産物としてではなく、何よりもgenerative inferenceを主眼に最適化している。これは将来のAI需要とコスト圧力がどこに集中するかについて、Metaがかなり明確な見方を持っていることを示す。
なぜ重要か
戦略的な意味は大きい。汎用acceleratorは今後も不可欠だが、Metaはコスト、電力、導入速度、hardware-software co-designをより直接的に制御しようとしている。Metaはmodular chipletと、同一のchassis、rack、network infrastructureの再利用によって、約6カ月ごとに新しいMTIA chipを投入できるとしている。software stackもPyTorch、vLLM、Triton、OCPといったindustry standardに合わせて整備している。
これは、業界の競争軸がpretraining中心の見出しから、徐々にinference cost、memory bandwidth、deployment velocityへ移っているからだ。MetaのMTIAロードマップは、この局面で外部supplierだけに依存しないという意思表示でもある。ranking system、広告stack、新しいGenAI experienceをMeta規模で回すために、自社workloadに合わせたcustom hardwareを持つ。Metaのような事業者にとって、それは周辺的な実験ではなく中核の運用戦略だ。
出典: Meta AI blog · Meta newsroom
Related Articles
Metaはnext-gen AIの拡張にはcustom siliconが重要だとしてMeta Training and Inference Accelerator(MTIA)のロードマップを公開した。従来のchip cycleより速いmodel architectureの変化に対応するため、2年間で4世代を進めたと説明している。
MetaはAMDとの長期契約により、最大6GWのAMD Instinct GPU容量をAIインフラ向けに確保すると発表した。初回出荷は2026年後半にHelios rack-scale systemで始まる予定だ。
Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。
Comments (0)
No comments yet. Be the first to comment!