NuExtract3, 4GB VRAM까지 노린 문서 추출 VLM

NuMind가 공개한 NuExtract3는 문서 이해에 초점을 둔 4B vision-language model이다. 텍스트와 이미지 입력을 받아 Markdown으로 변환하거나, JSON 템플릿에 맞춰 구조화 데이터를 뽑아내는 것이 주된 용도다. 기반 모델은 Qwen3.5-4B이고 라이선스는 Apache-2.0이다. 스캔 문서, 영수증, 청구서, 표, 계약서처럼 레이아웃이 중요한 입력을 로컬 파이프라인에서 처리하려는 사용자를 겨냥한다.

LocalLLaMA에서 반응이 나온 이유는 배포 형태다. 게시자는 Safetensors, GGUF, MLX weights와 여러 quantization을 제공한다고 설명했고, 4GB VRAM에서도 실행 가능한 구성을 내세웠다. vLLM, SGLang, llama.cpp 사용을 주로 테스트했으며, 문서 이미지를 Markdown으로 바꾸거나 자연어 설명에서 추출 템플릿을 만드는 기능도 포함했다. OCR을 클라우드 API에 맡기기 부담스러운 팀에는 self-hostable 옵션 자체가 중요한 포인트다.

모델 카드에는 내부 structured extraction benchmark 결과도 담겼다. NuExtract3.4_4B-RL은 약 600개 문서 기반 평가에서 평균 0.651 점수를 기록했다고 설명한다. 비교 대상에는 Qwen3.5-4B, Qwen3.5-9B, GLM-4.6V-Flash, Nemotron-3-Nano-Omni 등이 포함됐다. 다만 벤치마크는 내부 데이터셋 기준이며, NuMind는 추후 공개 벤치마크와 기술 보고서를 내겠다고 밝혔다.

댓글은 실사용 질문으로 바로 넘어갔다. 다단 레이아웃, 조밀한 표, 디지털 신문, 오래된 책의 OCR, vLLM 로딩 문제 같은 구체적인 사례가 올라왔다. 한 사용자는 GGUF와 MLX weights가 첫날부터 제공된 점을 높게 봤고, 다른 사용자는 기존 Qwen·Gemma 기반 시도에서 막히던 문서 작업에 적용해 보겠다고 했다. 과장된 범용 AI 이야기보다, 문서 추출 비용과 배포 통제권을 줄이는 도구로 받아들인 분위기다.

원문 스레드는 r/LocalLLaMA 게시물이며, 모델 카드는 Hugging Face NuExtract3에서 확인할 수 있다.

NuExtract3, 4GB VRAM까지 노린 문서 추출 VLM

Related Articles

GLM-5.2, open weights leaderboard의 새 기준선인가

MiniMax M3 가중치 공개, 428B 규모·23B 활성 파라미터로 Hugging Face 입성

GLM 5.2, Vibe Code Bench 64%로 오픈웨이트 코딩 격차를 좁힌 새 기준