LocalLLaMAでMicrosoft Phi-4-Reasoning-Vision-15Bに注目集まる
Original: microsoft/Phi-4-reasoning-vision-15B · Hugging Face View original →
LocalLLaMAでの反応
2026年3月4日(UTC)、Hugging Faceの microsoft/Phi-4-reasoning-vision-15B を共有したLocalLLaMA投稿が大きく伸びた。クロール時点でスコア166、コメント37件。投稿スレッド: r/LocalLLaMA discussion。
公開モデルのポイント
モデルカードによれば、Phi-4-Reasoning-Vision-15BはPhi-4-Reasoning language backboneとSigLIP-2 vision encoderを組み合わせたopen-weight multimodalモデル。mid-fusion構成を採用し、vision側はdynamic resolutionと最大3,600 visual tokensを扱う設計とされる。想定タスクにはGUI grounding、document理解、visual reasoningが含まれる。
一次情報: Hugging Face model page。関連コードリンク: microsoft/Phi-4-vision。
公開されている学習・推論情報
<think>/<nothink>形式でreasoningとnon-reasoningを1モデルで切り替える設計- reasoning系とnon-reasoning系を混ぜたデータでSupervised Fine-Tuning
- 公表トレーニング規模: NVIDIA B200 GPU 240基を4日
- 要件:
torch >= 2.7.1、transformers >= 4.57.1、任意でvllm >= 0.15.2
クロール時点のHugging Face APIメタデータでは、`pipeline_tag: image-text-to-text` と MIT licenseタグが確認できた。
スレッドでの議論
コメントは歓迎と懐疑が混在した。open modelの選択肢拡大を評価する声がある一方、context lengthや「moderate compute」という表現への疑問も出ている。全体としては、宣伝評価よりも「ローカル運用で実用になるか」という観点が中心だった。
実務への示唆
openなmultimodal運用を追うチームにとって、reasoning制御トークン、既存ツールチェーンとの整合、詳細なモデルカード公開が同時に揃っている点は重要だ。今後は独立検証で、品質再現性、quantization後のメモリ挙動、実運用レイテンシが確認されるかが焦点になる。
Related Articles
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。
Microsoft Researchは2026年2月26日にCORPGENを発表した。実際のオフィス業務を模した高負荷マルチタスク条件で、ベースライン比最大3.5倍の完了率を報告している。
Google AIはGemini 3.1 Flash-Liteの実運用例として、大量画像の仕分けや業務自動化シナリオを紹介した。Gemini API、Google AI Studio、Vertex AIのpreview導線も同時に示された。
Comments (0)
No comments yet. Be the first to comment!