OCRモデル競争、焦点はingestion品質へ
Original: Find the best open-source OCR models in one place at Papers with Code [P] View original →
OCRはAIインフラの入口として再び重要になっている。r/MachineLearningの投稿は、OCR benchmark、主要なopen model、論文、コードリンクをまとめたPapers with Codeのページを紹介した。同じ週にBaiduのUnlimited-OCRとMistral OCR 4が登場したことで、話題は単なる文字抽出から、agentやenterprise search、RAGに渡す文書ingestionの品質へ移った。
投稿者はOCRを企業データの入口として位置づけていた。AI agentや検索システムはMarkdown、構造化テキスト、表、layout情報を扱いやすい。一方で実際の社内文書は、スキャンPDF、複数カラム、注釈、表、図、細かな文字、複数言語が混ざっている。ここを正確に変換できるモデルは、検索、要約、compliance確認、ドメイン特化retrievalの精度を直接左右する。
Baidu Unlimited-OCRはone-shot long-horizon parsingを前面に出している。READMEでは3B parameterモデルと説明され、Reference Sliding Window Attentionを主要なアイデアとして示す。Hugging FaceとModelScopeでの配布、arXiv論文、単一画像とmulti-page PDFの推論例も公開された。長い文書やlayoutの保持を意識した研究寄りのopen modelと見られる。
Mistral OCR 4は運用面から同じ課題に向かう。MistralはOCR 4が抽出テキストに加えてbounding boxes、block classification、inline confidence scoresを返すと説明している。170言語、10のlanguage groupをサポートし、self-hosted deployment向けにsingle containerで動かせる点も強調する。enterprise searchやRAGのパイプラインへ組み込みやすいingestion componentという位置づけだ。
Papers with Codeの整理が読まれた理由は、単に一覧が便利だからではない。OCRモデルはきれいなデモでは強く見えても、表、数式、低品質スキャン、ページをまたぐ構造で差が出る。benchmarkとコードリンクがまとまっていれば、スクリーンショットではなく失敗モードを比較しやすい。open research modelとhosted document-AI製品の違いも見えやすくなる。
大きな流れとして、document AIはLLMの周辺機能ではなくなりつつある。source documentの解析が崩れていれば、長いcontext windowも十分に働かない。契約書、請求書、論文、検査レポートについてモデルが推論する前に、ingestion層が信頼できる構造を残している必要がある。
Related Articles
Z.AIはGLM-5.2を長文対応モデルではなく、長時間のcoding agent向けモデルとして位置づけた。1M lossless context、最大128K出力、Terminal-Bench 2.1の81.0点、FrontierSWEでClaude Opus 4.8に1%差という主張が焦点だ。
議論の焦点はagent構成の派手さではなく、データ品質、評価、復旧、observabilityが信頼を作るという点だった。
r/MachineLearningが注目したのは、単なる順位表ではなく「文書抽出で高いモデル代を払いすぎていないか」を繰り返し実行の数値で突いた点だった。cost-per-successやcritical-field精度まで含めたことで、コスト議論がかなり具体化した。