NuExtract3、4GB VRAMも視野に入れた文書抽出VLM

NuMindが公開したNuExtract3は、文書理解に特化した4Bのvision-language modelだ。主な用途は、文書画像やテキストをMarkdownへ変換すること、そしてJSONテンプレートに沿って構造化データを抽出することにある。Qwen3.5-4Bを基盤とし、Apache-2.0ライセンスで提供される。スキャン、領収書、請求書、フォーム、表、契約書など、レイアウトが重要な文書を対象にしている。

Redditで関心を集めた理由は、配布と運用の現実性だ。投稿者によると、Safetensors、GGUF、MLX weightsに加えて複数のquantizationが用意され、4GB VRAMでも動かせる構成を想定している。主にvLLM、SGLang、llama.cppで試されているという。機密文書を外部APIへ送らずにOCRや情報抽出を行いたいチームにとって、self-hostableであることは大きい。

モデルカードでは二つの使い方が説明されている。structured extractionでは、入力文書とJSON風テンプレートを渡し、その構造に沿った値を返す。Document-to-Markdownでは、画像からMarkdown、HTML表、数式用のLaTeX、画像用figureタグを生成する。NuMindは約600文書を使った内部ベンチマークも示し、NuExtract3.4_4B-RLがstructured extraction指標で0.651を記録したとしている。ただし公開ベンチマークと技術報告は今後の予定だ。

コメント欄では、すぐに実務上の疑問が並んだ。複数カラム、密な表、デジタル新聞、古い本、手書き、字幕OCR、vLLMでの読み込み問題などだ。初日からGGUFとMLX weightsがある点を評価する声もあり、クラウドOCRの費用が積み上がる用途で代替を試したいという反応もあった。派手な汎用AIの話ではなく、文書処理パイプラインの費用と管理をどう下げるかという受け止め方に近い。

元スレッドはr/LocalLLaMAの投稿。モデル詳細はHugging FaceのNuExtract3モデルカードで確認できる。

NuExtract3、4GB VRAMも視野に入れた文書抽出VLM

Related Articles

GLM-5.2、open weightsの争点を順位からreasoning効率へ

MiniMax M3の重みがHugging Faceへ、428B規模と1M文脈を提示

GLM 5.2、Vibe Code Bench 64%でオープンモデルの実用差を縮める新たな評価基準