r/LocalLLaMA가 포착한 IBM Granite 4.0 3B Vision, 문서 추출용 소형 VLM
Original: ibm-granite/granite-4.0-3b-vision · Hugging Face View original →
r/LocalLLaMA에서 관심을 받은 IBM Research의 Granite-4.0-3B-Vision은 범용 multimodal assistant를 내세우기보다 document extraction에 초점을 맞춘 소형 VLM이다. 포지셔닝이 꽤 분명하다. chart, table, semi-structured business document를 machine-readable output으로 바꾸는 실무형 workload를 먼저 잡겠다는 접근이다.
Hugging Face model card에 따르면 Granite-4.0-3B-Vision은 Granite 4.0 Micro 위에 얹는 LoRA adapter 형태로 제공된다. 이 구조는 운영 측면에서 의미가 크다. text-only request는 base model로 처리하고, image나 document understanding이 필요한 경우에만 vision adapter를 붙일 수 있기 때문이다. memory pressure와 serving 단순성을 중요하게 보는 팀이라면 순수 benchmark 못지않게 이 점에 주목할 만하다.
지원 task도 매우 구체적이다. chart2csv, chart2summary, chart2code 같은 chart extraction tag가 있고, table extraction은 HTML, JSON, OTSL 형식으로 낼 수 있다. 여기에 schema 기반 key-value pair extraction도 포함된다. IBM은 이 모델을 enterprise document AI용 구성요소로 설명한다. 즉 open-ended image chat보다 structured extraction accuracy가 더 중요한 pipeline을 겨냥한다는 뜻이다.
LocalLLaMA가 반응한 이유도 여기에 있다. IBM은 chart extraction과 table extraction benchmark에서 다른 small VLM과 비교 결과를 제시하고, key-value pair extraction용 VAREX benchmark에서는 2026년 3월 기준 2B~4B parameter model 가운데 exact-match accuracy 85.5%로 3위를 기록했다고 설명한다. release date는 2026년 3월 27일, license는 Apache 2.0이며, Transformers 예제뿐 아니라 vLLM serving path도 문서화되어 있다. merged-at-load 방식과 native LoRA runtime을 모두 제공하는 점도 운영 친화적이다.
- enterprise focus: 범용 chat보다 chart, table, KVP extraction에 집중했다.
- deployment angle: Granite 4.0 Micro 위의 LoRA adapter라 text-only와 multimodal workload를 유연하게 분리할 수 있다.
- ecosystem fit: Docling 연동과 vLLM 문서화가 production 적용 장벽을 낮춘다.
LocalLLaMA 커뮤니티가 이런 release에 반응하는 이유는 명확하다. 작은 open model이 주목받는 순간은 모든 것을 하겠다고 말할 때가 아니라, 실제 workflow 하나를 분명하게 해결할 때다. Granite-4.0-3B-Vision은 "무엇이든 되는" VLM을 약속하지 않는다. 대신 existing pipeline에 꽂을 수 있는 현실적인 document extraction component가 되겠다는 쪽에 가깝고, 바로 그 절제된 목표가 오히려 더 설득력 있게 읽힌다.
Related Articles
IBM Granite는 2026-03-20 Mellea 0.4.0과 Granite 4.0 Micro용 Granite Libraries 3종을 공개했다. prompt-only orchestration 대신 구조화되고 safety-aware한 workflow를 만들려는 팀에 초점을 둔 release다.
IBM은 2026년 3월 9일 Granite 4.0 1B Speech를 공개했다. 절반 수준의 파라미터로 이전 모델보다 더 높은 영어 전사 정확도, speculative decoding 기반 빠른 추론, 일본어를 포함한 다국어 지원을 제공한다고 밝혔다.
Google이 Gemini 3.1 Flash-Lite를 preview로 공개했다. 회사는 이 모델을 Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 옵션으로 제시하며, 대량 translation·moderation·agent workload를 겨냥하고 있다.
Comments (0)
No comments yet. Be the first to comment!