OCRで高価な最新モデルが常に正解ではない結果、r/MachineLearningの反応
Original: We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R] View original →
このReddit投稿の核心
この投稿の面白さは、「LLMがOCRを完全に置き換える」という大きすぎる主張ではない。むしろ逆で、標準的な業務文書の抽出では、多くのチームが最新で高価なモデルを惰性で使いすぎており、より安いモデルでも十分なケースがあるのではないか、という実務寄りの問いを立てている。投稿者は 42文書、18モデル、7,560回の呼び出し を同条件で回し、単発の正解率だけでなく pass^n、cost-per-success、latency、critical-field accuracyを見たという。ここがr/MachineLearningに刺さった。単なる順位付けではなく、実際の運用指標を持ち込んだからだ。
現在のリーダーボードが示すこと
リンク先のleaderboardでは、全体表で Gemini 3 Flash と Claude Sonnet 4.6 がともに 73.8% のsuccessを記録している一方、成功1件あたりのコストはGemini側のほうがかなり低い。さらに GPT-5.4 は 49.2%、GPT-5 は 44.6% にとどまり、より安価な Gemini 2.5 Flash-Lite のようなモデルも実務上かなり競争力のある数字を出している。これは運用チームにとって重要だ。請求書、レシート、物流書類の主要項目を安定して抜けるなら、“最新だから”という理由だけで高いモデルを使う習慣は見直される。
コミュニティがすぐに突いた弱点
コメント欄では、評価軸そのものへの突っ込みも多かった。もっとも多かったのは「比較対象が狭すぎる」という指摘だ。Tesseract や PaddleOCR、OCR特化のオープンモデル、あるいはmulti-stageパイプラインが入っていないなら、これはLLM同士の比較としては有用でも、「OCRにLLMを使うべきか」まで答えていない、というわけだ。さらに、structured documentでは従来OCRがすでにかなり高い水準まで達しており、LLMを使うのは速度やコスト面で過剰ではないかという声もあった。コミュニティはこのベンチマークを否定したのではなく、かなり有望だが、実務の意思決定に使うには baselineをもっと広げる必要があると見ていた。
それでも高シグナルな理由
それでもこの投稿が価値あるのは、オープンな成果物と実務指標が一緒に出ていることだ。repoはベンチマークのコードとデータ構造を公開し、leaderboardは繰り返し実行での信頼性を数字として見せている。そのため議論が「どのモデルが賢いか」から、「どのモデルが業務で妥当なコストで安定して動くか」へ移っている。r/MachineLearningの反応もそこに集約されていた。勝者当てより重要なのは、document AIではコストと一貫性をもっと厳しく見るべきで、多くのチームが“とりあえず最新モデル”で余計な費用を払っているかもしれない、という点だ。
出典: ArbitrAI leaderboard · OCR mini-bench repository · Reddit議論
Related Articles
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
LocalLLaMAで注目されたのは、OCRの新奇性よりも公開重み、セルフホスト、低い実行要件という実務面だった。