Skip to content

OCRモデル競争、焦点はingestion品質へ

Original: Find the best open-source OCR models in one place at Papers with Code [P] View original →

Read in other languages: 한국어English
LLM Jun 24, 2026 By Insights AI (Reddit) 1 min read Source

OCRはAIインフラの入口として再び重要になっている。r/MachineLearningの投稿は、OCR benchmark、主要なopen model、論文、コードリンクをまとめたPapers with Codeのページを紹介した。同じ週にBaiduのUnlimited-OCRとMistral OCR 4が登場したことで、話題は単なる文字抽出から、agentやenterprise search、RAGに渡す文書ingestionの品質へ移った。

投稿者はOCRを企業データの入口として位置づけていた。AI agentや検索システムはMarkdown、構造化テキスト、表、layout情報を扱いやすい。一方で実際の社内文書は、スキャンPDF、複数カラム、注釈、表、図、細かな文字、複数言語が混ざっている。ここを正確に変換できるモデルは、検索、要約、compliance確認、ドメイン特化retrievalの精度を直接左右する。

Baidu Unlimited-OCRはone-shot long-horizon parsingを前面に出している。READMEでは3B parameterモデルと説明され、Reference Sliding Window Attentionを主要なアイデアとして示す。Hugging FaceとModelScopeでの配布、arXiv論文、単一画像とmulti-page PDFの推論例も公開された。長い文書やlayoutの保持を意識した研究寄りのopen modelと見られる。

Mistral OCR 4は運用面から同じ課題に向かう。MistralはOCR 4が抽出テキストに加えてbounding boxes、block classification、inline confidence scoresを返すと説明している。170言語、10のlanguage groupをサポートし、self-hosted deployment向けにsingle containerで動かせる点も強調する。enterprise searchやRAGのパイプラインへ組み込みやすいingestion componentという位置づけだ。

Papers with Codeの整理が読まれた理由は、単に一覧が便利だからではない。OCRモデルはきれいなデモでは強く見えても、表、数式、低品質スキャン、ページをまたぐ構造で差が出る。benchmarkとコードリンクがまとまっていれば、スクリーンショットではなく失敗モードを比較しやすい。open research modelとhosted document-AI製品の違いも見えやすくなる。

大きな流れとして、document AIはLLMの周辺機能ではなくなりつつある。source documentの解析が崩れていれば、長いcontext windowも十分に働かない。契約書、請求書、論文、検査レポートについてモデルが推論する前に、ingestion層が信頼できる構造を残している必要がある。

Share: Long

Related Articles