OCRモデル競争、焦点はingestion品質へ

OCRはAIインフラの入口として再び重要になっている。r/MachineLearningの投稿は、OCR benchmark、主要なopen model、論文、コードリンクをまとめたPapers with Codeのページを紹介した。同じ週にBaiduのUnlimited-OCRとMistral OCR 4が登場したことで、話題は単なる文字抽出から、agentやenterprise search、RAGに渡す文書ingestionの品質へ移った。

投稿者はOCRを企業データの入口として位置づけていた。AI agentや検索システムはMarkdown、構造化テキスト、表、layout情報を扱いやすい。一方で実際の社内文書は、スキャンPDF、複数カラム、注釈、表、図、細かな文字、複数言語が混ざっている。ここを正確に変換できるモデルは、検索、要約、compliance確認、ドメイン特化retrievalの精度を直接左右する。

Baidu Unlimited-OCRはone-shot long-horizon parsingを前面に出している。READMEでは3B parameterモデルと説明され、Reference Sliding Window Attentionを主要なアイデアとして示す。Hugging FaceとModelScopeでの配布、arXiv論文、単一画像とmulti-page PDFの推論例も公開された。長い文書やlayoutの保持を意識した研究寄りのopen modelと見られる。

Mistral OCR 4は運用面から同じ課題に向かう。MistralはOCR 4が抽出テキストに加えてbounding boxes、block classification、inline confidence scoresを返すと説明している。170言語、10のlanguage groupをサポートし、self-hosted deployment向けにsingle containerで動かせる点も強調する。enterprise searchやRAGのパイプラインへ組み込みやすいingestion componentという位置づけだ。

Papers with Codeの整理が読まれた理由は、単に一覧が便利だからではない。OCRモデルはきれいなデモでは強く見えても、表、数式、低品質スキャン、ページをまたぐ構造で差が出る。benchmarkとコードリンクがまとまっていれば、スクリーンショットではなく失敗モードを比較しやすい。open research modelとhosted document-AI製品の違いも見えやすくなる。

大きな流れとして、document AIはLLMの周辺機能ではなくなりつつある。source documentの解析が崩れていれば、長いcontext windowも十分に働かない。契約書、請求書、論文、検査レポートについてモデルが推論する前に、ingestion層が信頼できる構造を残している必要がある。

OCRモデル競争、焦点はingestion品質へ

Related Articles

GLM-5.2、1M contextをcoding agent競争の実戦指標へ

BayerのPRINCE事例、agentic RAGを本番運用に載せる条件

OCRで高価な最新モデルが常に正解ではない結果、r/MachineLearningの反応

Related Articles

GLM-5.2、1M contextをcoding agent競争の実戦指標へ
Z.AIはGLM-5.2を長文対応モデルではなく、長時間のcoding agent向けモデルとして位置づけた。1M lossless context、最大128K出力、Terminal-Bench 2.1の81.0点、FrontierSWEでClaude Opus 4.8に1%差という主張が焦点だ。

BayerのPRINCE事例、agentic RAGを本番運用に載せる条件

OCRで高価な最新モデルが常に正解ではない結果、r/MachineLearningの反応
LLM Reddit Apr 24, 2026 1 min read