Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化
Original: We’re releasing SAM 3.1: a drop-in update to SAM 3 that introduces object multiplexing to significantly improve video processing efficiency without sacrificing accuracy. We’re sharing this update with the community to help make high-performance applications feasible on smaller, more accessible hardware. 🔗 Model Checkpoint: https://go.meta.me/8dd321 🔗 Codebase: https://go.meta.me/b0a9fb View original →
MetaがXで述べた内容
2026年3月27日、MetaはSAM 3.1をSAM 3のdrop-in updateとして公開した。X投稿ではobject multiplexingを中心的な変更点として挙げ、accuracyを落とさずにvideo processing efficiencyを大きく改善すると説明している。Metaはさらに、この更新をより小さくアクセスしやすいhardwareでも高性能applicationを成立させるためのものだと位置づけた。
ここが重要なのは、video segmentationやtrackingのworkloadがobject数の増加とともに急速に重くなるからだ。1つか2つのobjectを追うときには問題がなくても、長いvideoの中で多数のobjectを同時に追跡すると計算コストはすぐに膨らむ。MetaはSAM 3.1を単なるcheckpoint更新ではなく、実運用の制約に向けたefficiency改善として打ち出している。
Release noteが補足した点
SAM 3.1のGitHub release noteによれば、今回の更新はObject Multiplexを導入する。これはjoint multi-object trackingのためのshared-memoryアプローチだ。従来のSAM 3 pipelineでは各objectを独立に処理していたため、object数の増加に応じて計算コストもほぼ線形に増えていた。SAM 3.1はobjectを固定容量のbucketにまとめて共同処理することで、重複計算を減らす。
Metaは具体的な改善値も示している。2025年11月版SAM 3と比べて、single H100 GPUで128 object時に約7倍の高速化を実現したという。加えて、CPU-GPU synchronizationの削減、torch.compile対応の改善、postprocessingとvision encoderのbatching拡大といったinference最適化も含まれる。
benchmark結果は全項目で一様な改善として示されているわけではないが、scaling負荷の高い領域では意味のある向上を主張している。Release noteではYT-Temporal-1Bで+2.1 cgF1、さらにMOSEv2で+2.0を含め、7つ中6つのVOS benchmarkで改善があったとしている。Metaは新しいSAM 3.1 checkpointをHugging Faceで公開し、利用には最新repo codeが必要だと案内している。
なぜ重要か
より大きな流れとして、open computer vision modelの競争軸はraw accuracyだけでなく配備効率にも移っている。robotics、video analytics、sports analysis、editing toolのような実務では、単一benchmarkの優位よりもframeあたりのコストや同時追跡数の方が重要になることが多い。
Metaの説明どおりであれば、SAM 3.1はdense multi-object video workflowをより厳しいhardware予算でも回しやすくするはずだ。更新されたcheckpointとcodeが同時に公開されているため、この発表は単なる研究予告ではなく、開発者と研究者がすぐ試せる実務的なreleaseと言える。
Related Articles
MetaはMarch 27, 2026にSAM 3.1を公開し、object multiplexingによってsingle H100上でmedium-object-count videoのthroughputを16 FPSから32 FPSへ引き上げたと説明した。MetaはこれをSAM 3のdrop-in replacementとして提供する。
Metaは自社AI chipのMTIA roadmapをMTIA 300、400、450、500まで拡張したと説明した。2026〜2027年の配備を通じて、GenAI inferenceをより低コストで回す基盤を整える狙いだ。
Metaは、NVIDIAとのmulti-year契約がtraining、inference、基幹workload向けのAI最適化data centerを支えると説明した。今回の発表は、privacy、networking、将来のVera Rubin clusterまでを同じinfrastructure roadmapに結びつけている。
Comments (0)
No comments yet. Be the first to comment!