Skip to content

NuExtract3、4GB VRAMも視野に入れた文書抽出VLM

Original: NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) View original →

Read in other languages: 한국어English
LLM May 26, 2026 By Insights AI (Reddit) 1 min read Source

NuMindが公開したNuExtract3は、文書理解に特化した4Bのvision-language modelだ。主な用途は、文書画像やテキストをMarkdownへ変換すること、そしてJSONテンプレートに沿って構造化データを抽出することにある。Qwen3.5-4Bを基盤とし、Apache-2.0ライセンスで提供される。スキャン、領収書、請求書、フォーム、表、契約書など、レイアウトが重要な文書を対象にしている。

Redditで関心を集めた理由は、配布と運用の現実性だ。投稿者によると、Safetensors、GGUF、MLX weightsに加えて複数のquantizationが用意され、4GB VRAMでも動かせる構成を想定している。主にvLLM、SGLang、llama.cppで試されているという。機密文書を外部APIへ送らずにOCRや情報抽出を行いたいチームにとって、self-hostableであることは大きい。

モデルカードでは二つの使い方が説明されている。structured extractionでは、入力文書とJSON風テンプレートを渡し、その構造に沿った値を返す。Document-to-Markdownでは、画像からMarkdown、HTML表、数式用のLaTeX、画像用figureタグを生成する。NuMindは約600文書を使った内部ベンチマークも示し、NuExtract3.4_4B-RLがstructured extraction指標で0.651を記録したとしている。ただし公開ベンチマークと技術報告は今後の予定だ。

コメント欄では、すぐに実務上の疑問が並んだ。複数カラム、密な表、デジタル新聞、古い本、手書き、字幕OCR、vLLMでの読み込み問題などだ。初日からGGUFとMLX weightsがある点を評価する声もあり、クラウドOCRの費用が積み上がる用途で代替を試したいという反応もあった。派手な汎用AIの話ではなく、文書処理パイプラインの費用と管理をどう下げるかという受け止め方に近い。

元スレッドはr/LocalLLaMAの投稿。モデル詳細はHugging FaceのNuExtract3モデルカードで確認できる。

Share: Long

Related Articles

LLM Hacker News May 2, 2026 1 min read

DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment