LocalLLaMAでMicrosoft Phi-4-Reasoning-Vision-15Bに注目集まる
Original: microsoft/Phi-4-reasoning-vision-15B · Hugging Face View original →
LocalLLaMAでの反応
2026年3月4日(UTC)、Hugging Faceの microsoft/Phi-4-reasoning-vision-15B を共有したLocalLLaMA投稿が大きく伸びた。クロール時点でスコア166、コメント37件。投稿スレッド: r/LocalLLaMA discussion。
公開モデルのポイント
モデルカードによれば、Phi-4-Reasoning-Vision-15BはPhi-4-Reasoning language backboneとSigLIP-2 vision encoderを組み合わせたopen-weight multimodalモデル。mid-fusion構成を採用し、vision側はdynamic resolutionと最大3,600 visual tokensを扱う設計とされる。想定タスクにはGUI grounding、document理解、visual reasoningが含まれる。
一次情報: Hugging Face model page。関連コードリンク: microsoft/Phi-4-vision。
公開されている学習・推論情報
<think>/<nothink>形式でreasoningとnon-reasoningを1モデルで切り替える設計- reasoning系とnon-reasoning系を混ぜたデータでSupervised Fine-Tuning
- 公表トレーニング規模: NVIDIA B200 GPU 240基を4日
- 要件:
torch >= 2.7.1、transformers >= 4.57.1、任意でvllm >= 0.15.2
クロール時点のHugging Face APIメタデータでは、`pipeline_tag: image-text-to-text` と MIT licenseタグが確認できた。
スレッドでの議論
コメントは歓迎と懐疑が混在した。open modelの選択肢拡大を評価する声がある一方、context lengthや「moderate compute」という表現への疑問も出ている。全体としては、宣伝評価よりも「ローカル運用で実用になるか」という観点が中心だった。
実務への示唆
openなmultimodal運用を追うチームにとって、reasoning制御トークン、既存ツールチェーンとの整合、詳細なモデルカード公開が同時に揃っている点は重要だ。今後は独立検証で、品質再現性、quantization後のメモリ挙動、実運用レイテンシが確認されるかが焦点になる。
Related Articles
Microsoft Researchは2026年3月4日、15 billion parameterのopen-weight modelであるPhi-4-reasoning-vision-15Bを発表した。同社は、より大規模なsystemほどのcompute負荷を伴わずに、multimodal reasoning、math・science task、computer-use性能を高めることを狙ったと説明している。
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。
LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。
Comments (0)
No comments yet. Be the first to comment!