NuExtract3, 4GB VRAM까지 노린 문서 추출 VLM
Original: NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) View original →
NuMind가 공개한 NuExtract3는 문서 이해에 초점을 둔 4B vision-language model이다. 텍스트와 이미지 입력을 받아 Markdown으로 변환하거나, JSON 템플릿에 맞춰 구조화 데이터를 뽑아내는 것이 주된 용도다. 기반 모델은 Qwen3.5-4B이고 라이선스는 Apache-2.0이다. 스캔 문서, 영수증, 청구서, 표, 계약서처럼 레이아웃이 중요한 입력을 로컬 파이프라인에서 처리하려는 사용자를 겨냥한다.
LocalLLaMA에서 반응이 나온 이유는 배포 형태다. 게시자는 Safetensors, GGUF, MLX weights와 여러 quantization을 제공한다고 설명했고, 4GB VRAM에서도 실행 가능한 구성을 내세웠다. vLLM, SGLang, llama.cpp 사용을 주로 테스트했으며, 문서 이미지를 Markdown으로 바꾸거나 자연어 설명에서 추출 템플릿을 만드는 기능도 포함했다. OCR을 클라우드 API에 맡기기 부담스러운 팀에는 self-hostable 옵션 자체가 중요한 포인트다.
모델 카드에는 내부 structured extraction benchmark 결과도 담겼다. NuExtract3.4_4B-RL은 약 600개 문서 기반 평가에서 평균 0.651 점수를 기록했다고 설명한다. 비교 대상에는 Qwen3.5-4B, Qwen3.5-9B, GLM-4.6V-Flash, Nemotron-3-Nano-Omni 등이 포함됐다. 다만 벤치마크는 내부 데이터셋 기준이며, NuMind는 추후 공개 벤치마크와 기술 보고서를 내겠다고 밝혔다.
댓글은 실사용 질문으로 바로 넘어갔다. 다단 레이아웃, 조밀한 표, 디지털 신문, 오래된 책의 OCR, vLLM 로딩 문제 같은 구체적인 사례가 올라왔다. 한 사용자는 GGUF와 MLX weights가 첫날부터 제공된 점을 높게 봤고, 다른 사용자는 기존 Qwen·Gemma 기반 시도에서 막히던 문서 작업에 적용해 보겠다고 했다. 과장된 범용 AI 이야기보다, 문서 추출 비용과 배포 통제권을 줄이는 도구로 받아들인 분위기다.
원문 스레드는 r/LocalLLaMA 게시물이며, 모델 카드는 Hugging Face NuExtract3에서 확인할 수 있다.
Related Articles
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
DeepSeek이 DeepSeek-V4-Pro와 V4-Flash 두 가지 모델을 공개했다. Pro는 1.6조 파라미터(활성 49B)의 Mixture-of-Experts 구조로, 현재까지 공개된 오픈웨이트 모델 중 최대 규모다. 가격은 GPT-5.4와 Gemini 3.1 Pro 대비 절반 이하로, 비용 효율성이 핵심 차별점이다.
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
Comments (0)
No comments yet. Be the first to comment!