Microsoft Research、Phi-4-reasoning-vision-15B公開 multimodal reasoning効率を前面に
Original: Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model View original →
Microsoft Researchは2026年3月4日、Phi-4-reasoning-vision-15Bを発表し、multimodal reasoningで最も難しい課題の一つに正面から向き合った。強い性能を維持しながら、compute costを際限なく膨らませないことだ。15 billion parameterのopen-weightモデルはMicrosoft Foundry、Hugging Face、GitHubで提供され、Microsoftはimage captioning、receipt・document reading、screen understanding、visual question answering、homework assistance、sequence-of-images reasoningなど幅広いvision-language taskを想定していると説明している。
Microsoftが打ち出した差別化ポイント
今回の発表でMicrosoftが強く押し出したのは、絶対的な規模よりefficiencyだ。同社はPhi-4-reasoning-vision-15Bが、はるかに遅く多くのoutput tokenを必要とするモデルと競合できる性能を示し、同程度の速度帯にあるモデルよりmath・science reasoningで高い精度を出せると主張している。特にcomputer useとuser-interface groundingを前面に置いた点が重要だ。情報密度の高いscreenや小さなinteractive elementが多いUIは、いまも多くのmultimodal systemの弱点だからだ。
構成面では、Microsoftは高コストなearly-fusionではなくmid-fusionを選んだ。SigLIP-2系のvision encoderとPhi-4-Reasoning backboneを組み合わせ、cross-modal reasoningを維持しながらmemory、training、inferenceの負担を抑えたという。さらにhigh-resolution benchmarkではdynamic-resolution image handlingが特に効いたと説明する。parameterを増やすことより、必要なvisual detailをどう取り出すかがmodel efficiencyを左右したという見方だ。
training recipeが示すもの
より重要なのはtraining strategyに関する説明だ。Microsoftによれば、このモデルは200 billionのmultimodal tokensで学習されており、最近のopen-weight multimodal競合が言及する1 trillion超よりかなり少ない。つまり、極端なscaleよりも、architecture choice、data curation、reasoning-heavy dataとnon-reasoning dataの組み合わせが、より効率の良い結果を生み得るという主張になる。
その意味でPhi-4-reasoning-vision-15Bは単なるmodel releaseではない。multimodal開発が今後、より小さく、より速く、実際のinterfaceに載せやすい方向へ進む可能性を示す発表でもある。Microsoftのefficiency claimがdeveloperの実運用でも再現されるなら、open-weight multimodal modelは巨大scaleなしでも十分に競争できるという見方を一段強めることになりそうだ。
Related Articles
2026年3月4日、LocalLLaMAの高スコア投稿でMicrosoftのopen-weight multimodalモデルPhi-4-Reasoning-Vision-15Bが共有され、実運用観点の議論が広がった。
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。