Microsoft Research, Phi-4-reasoning-vision-15B 공개… multimodal reasoning 효율성 전면에
Original: Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model View original →
Microsoft Research는 2026년 3월 4일 Phi-4-reasoning-vision-15B를 공개하며 multimodal reasoning에서 가장 어려운 문제 가운데 하나를 정면으로 겨냥했다. 바로 성능을 유지하면서도 compute cost를 폭증시키지 않는 것이다. 15 billion parameter 규모의 open-weight 모델은 Microsoft Foundry, Hugging Face, GitHub를 통해 제공되며, Microsoft는 image captioning, receipt·document reading, screen understanding, visual question answering, homework assistance, sequence-of-images reasoning 같은 폭넓은 vision-language 작업을 지원한다고 설명한다.
Microsoft가 내세운 차별점
이번 발표에서 Microsoft가 강조한 핵심은 절대 성능보다 efficiency다. 회사는 Phi-4-reasoning-vision-15B가 훨씬 더 느리고 더 많은 output token을 요구하는 모델과 경쟁 가능한 성능을 보이면서, 비슷한 속도의 모델보다 math·science reasoning에서 더 높은 정확도를 낸다고 주장했다. 특히 computer use와 user-interface grounding을 전면에 세운 점이 눈에 띈다. 많은 multimodal 시스템이 정보 밀도가 높은 screenshot이나 작은 interactive element가 많은 화면에서 여전히 약점을 드러내기 때문이다.
구조 측면에서 Microsoft는 비용이 큰 early-fusion 대신 mid-fusion 설계를 택했다. SigLIP-2 계열 vision encoder와 Phi-4-Reasoning backbone을 조합해 cross-modal reasoning을 유지하면서도 memory, training, inference 부담을 통제하려 했다는 설명이다. 또한 high-resolution benchmark에서 dynamic-resolution image handling이 특히 중요했다고 밝혔다. 단순히 parameter 수를 늘리기보다, 필요한 visual detail을 어떻게 뽑아내느냐가 model efficiency를 좌우했다는 해석이다.
훈련 전략이 던지는 메시지
발표문에서 더 중요한 부분은 training recipe다. Microsoft는 이 모델이 200 billion multimodal tokens 규모의 학습으로 완성됐고, 이는 최근 open-weight multimodal 경쟁 모델들이 언급하는 1 trillion 이상 수준보다 훨씬 적다고 설명했다. 즉, 극단적인 scale보다 architecture choice, data curation, reasoning-heavy data와 non-reasoning data의 혼합이 더 효율적인 결과를 낼 수 있다는 주장이다.
그래서 Phi-4-reasoning-vision-15B는 단순한 model release를 넘어선다. multimodal 개발이 앞으로 더 작고, 더 빠르고, 실제 interface에 배치 가능한 시스템 쪽으로 이동할 수 있다는 방향성을 제시하기 때문이다. Microsoft의 efficiency claim이 developer 환경에서도 유지된다면, open-weight multimodal 모델이 거대한 scale 없이도 충분히 경쟁력을 확보할 수 있다는 논리를 강화하게 될 것이다.
Related Articles
2026년 3월 4일 LocalLLaMA 고득점 글에서 Microsoft의 open-weight multimodal 모델 Phi-4-Reasoning-Vision-15B가 공유됐고, 로컬 배포 관점의 토론이 이어졌다.
2026년 3월 16일 r/LocalLLaMA의 Mistral Small 4 글은 최신 사용 가능 크롤 기준 606 points와 232 comments를 기록했다. Mistral 모델 카드는 4 active expert, 256k context, 멀티모달 입력, 요청별 reasoning 전환을 갖춘 119B급 MoE를 설명한다.
2026년 3월 16일 r/LocalLLaMA에서 Mistral Small 4 링크는 504 points와 196 comments를 기록했다. Hugging Face model card에 따르면 이 모델은 119B parameter, 4 active experts, 256k context, multimodal input, switchable reasoning을 한 번에 묶는다.
Comments (0)
No comments yet. Be the first to comment!