Microsoft Research、Phi-4-reasoning-vision-15B公開　multimodal reasoning効率を前面に

Microsoft Researchは2026年3月4日、Phi-4-reasoning-vision-15Bを発表し、multimodal reasoningで最も難しい課題の一つに正面から向き合った。強い性能を維持しながら、compute costを際限なく膨らませないことだ。15 billion parameterのopen-weightモデルはMicrosoft Foundry、Hugging Face、GitHubで提供され、Microsoftはimage captioning、receipt・document reading、screen understanding、visual question answering、homework assistance、sequence-of-images reasoningなど幅広いvision-language taskを想定していると説明している。

Microsoftが打ち出した差別化ポイント

今回の発表でMicrosoftが強く押し出したのは、絶対的な規模よりefficiencyだ。同社はPhi-4-reasoning-vision-15Bが、はるかに遅く多くのoutput tokenを必要とするモデルと競合できる性能を示し、同程度の速度帯にあるモデルよりmath・science reasoningで高い精度を出せると主張している。特にcomputer useとuser-interface groundingを前面に置いた点が重要だ。情報密度の高いscreenや小さなinteractive elementが多いUIは、いまも多くのmultimodal systemの弱点だからだ。

構成面では、Microsoftは高コストなearly-fusionではなくmid-fusionを選んだ。SigLIP-2系のvision encoderとPhi-4-Reasoning backboneを組み合わせ、cross-modal reasoningを維持しながらmemory、training、inferenceの負担を抑えたという。さらにhigh-resolution benchmarkではdynamic-resolution image handlingが特に効いたと説明する。parameterを増やすことより、必要なvisual detailをどう取り出すかがmodel efficiencyを左右したという見方だ。

training recipeが示すもの

より重要なのはtraining strategyに関する説明だ。Microsoftによれば、このモデルは200 billionのmultimodal tokensで学習されており、最近のopen-weight multimodal競合が言及する1 trillion超よりかなり少ない。つまり、極端なscaleよりも、architecture choice、data curation、reasoning-heavy dataとnon-reasoning dataの組み合わせが、より効率の良い結果を生み得るという主張になる。

その意味でPhi-4-reasoning-vision-15Bは単なるmodel releaseではない。multimodal開発が今後、より小さく、より速く、実際のinterfaceに載せやすい方向へ進む可能性を示す発表でもある。Microsoftのefficiency claimがdeveloperの実運用でも再現されるなら、open-weight multimodal modelは巨大scaleなしでも十分に競争できるという見方を一段強めることになりそうだ。

Microsoft Research、Phi-4-reasoning-vision-15B公開　multimodal reasoning効率を前面に

Microsoftが打ち出した差別化ポイント

training recipeが示すもの

Related Articles

LocalLLaMAが見たMistral Small 4、Instruct・Reasoning・Devstralを一つのMoEへ統合

r/LocalLLaMAで注目の Mistral Small 4、119B MoE に 256k context と切替式 reasoning を統合

Azure、Phi-4-Reasoning-Vision-15BをMicrosoft Foundryに追加

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAが見たMistral Small 4、Instruct・Reasoning・Devstralを一つのMoEへ統合

r/LocalLLaMAで注目の Mistral Small 4、119B MoE に 256k context と切替式 reasoning を統合
LLM Reddit Mar 17, 2026 1 min read

Azure、Phi-4-Reasoning-Vision-15BをMicrosoft Foundryに追加
LLM sources.twitter Mar 9, 2026 1 min read