LocalLLaMAでMicrosoft Phi-4-Reasoning-Vision-15Bに注目集まる

Original: microsoft/Phi-4-reasoning-vision-15B · Hugging Face View original →

Read in other languages: 한국어English
LLM Mar 5, 2026 By Insights AI (Reddit) 1 min read 1 views Source

LocalLLaMAでの反応

2026年3月4日(UTC)、Hugging Faceの microsoft/Phi-4-reasoning-vision-15B を共有したLocalLLaMA投稿が大きく伸びた。クロール時点でスコア166、コメント37件。投稿スレッド: r/LocalLLaMA discussion

公開モデルのポイント

モデルカードによれば、Phi-4-Reasoning-Vision-15BはPhi-4-Reasoning language backboneとSigLIP-2 vision encoderを組み合わせたopen-weight multimodalモデル。mid-fusion構成を採用し、vision側はdynamic resolutionと最大3,600 visual tokensを扱う設計とされる。想定タスクにはGUI grounding、document理解、visual reasoningが含まれる。

一次情報: Hugging Face model page。関連コードリンク: microsoft/Phi-4-vision

公開されている学習・推論情報

  • <think> / <nothink> 形式でreasoningとnon-reasoningを1モデルで切り替える設計
  • reasoning系とnon-reasoning系を混ぜたデータでSupervised Fine-Tuning
  • 公表トレーニング規模: NVIDIA B200 GPU 240基を4日
  • 要件: torch >= 2.7.1transformers >= 4.57.1、任意でvllm >= 0.15.2

クロール時点のHugging Face APIメタデータでは、`pipeline_tag: image-text-to-text` と MIT licenseタグが確認できた。

スレッドでの議論

コメントは歓迎と懐疑が混在した。open modelの選択肢拡大を評価する声がある一方、context lengthや「moderate compute」という表現への疑問も出ている。全体としては、宣伝評価よりも「ローカル運用で実用になるか」という観点が中心だった。

実務への示唆

openなmultimodal運用を追うチームにとって、reasoning制御トークン、既存ツールチェーンとの整合、詳細なモデルカード公開が同時に揃っている点は重要だ。今後は独立検証で、品質再現性、quantization後のメモリ挙動、実運用レイテンシが確認されるかが焦点になる。

Share:

Related Articles

LLM sources.twitter 3d ago 1 min read

AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.