OCRで高価な最新モデルが常に正解ではない結果、r/MachineLearningの反応
Original: We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R] View original →
このReddit投稿の核心
この投稿の面白さは、「LLMがOCRを完全に置き換える」という大きすぎる主張ではない。むしろ逆で、標準的な業務文書の抽出では、多くのチームが最新で高価なモデルを惰性で使いすぎており、より安いモデルでも十分なケースがあるのではないか、という実務寄りの問いを立てている。投稿者は 42文書、18モデル、7,560回の呼び出し を同条件で回し、単発の正解率だけでなく pass^n、cost-per-success、latency、critical-field accuracyを見たという。ここがr/MachineLearningに刺さった。単なる順位付けではなく、実際の運用指標を持ち込んだからだ。
現在のリーダーボードが示すこと
リンク先のleaderboardでは、全体表で Gemini 3 Flash と Claude Sonnet 4.6 がともに 73.8% のsuccessを記録している一方、成功1件あたりのコストはGemini側のほうがかなり低い。さらに GPT-5.4 は 49.2%、GPT-5 は 44.6% にとどまり、より安価な Gemini 2.5 Flash-Lite のようなモデルも実務上かなり競争力のある数字を出している。これは運用チームにとって重要だ。請求書、レシート、物流書類の主要項目を安定して抜けるなら、“最新だから”という理由だけで高いモデルを使う習慣は見直される。
コミュニティがすぐに突いた弱点
コメント欄では、評価軸そのものへの突っ込みも多かった。もっとも多かったのは「比較対象が狭すぎる」という指摘だ。Tesseract や PaddleOCR、OCR特化のオープンモデル、あるいはmulti-stageパイプラインが入っていないなら、これはLLM同士の比較としては有用でも、「OCRにLLMを使うべきか」まで答えていない、というわけだ。さらに、structured documentでは従来OCRがすでにかなり高い水準まで達しており、LLMを使うのは速度やコスト面で過剰ではないかという声もあった。コミュニティはこのベンチマークを否定したのではなく、かなり有望だが、実務の意思決定に使うには baselineをもっと広げる必要があると見ていた。
それでも高シグナルな理由
それでもこの投稿が価値あるのは、オープンな成果物と実務指標が一緒に出ていることだ。repoはベンチマークのコードとデータ構造を公開し、leaderboardは繰り返し実行での信頼性を数字として見せている。そのため議論が「どのモデルが賢いか」から、「どのモデルが業務で妥当なコストで安定して動くか」へ移っている。r/MachineLearningの反応もそこに集約されていた。勝者当てより重要なのは、document AIではコストと一貫性をもっと厳しく見るべきで、多くのチームが“とりあえず最新モデル”で余計な費用を払っているかもしれない、という点だ。
出典: ArbitrAI leaderboard · OCR mini-bench repository · Reddit議論
Related Articles
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
LocalLLaMAの熱量は「modelが弱くなった」という不満だけでは終わらなかった。provider routing、quantization、peak-time behavior、silent downgradeをどう証明するかへ議論が広がった。証拠は未確定だが、不安ははっきり見える。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Comments (0)
No comments yet. Be the first to comment!