LocalLLaMAで注目されたのは、OCRの新奇性よりも公開重み、セルフホスト、低い実行要件という実務面だった。
#ocr
RSS Feedr/MachineLearningが注目したのは、単なる順位表ではなく「文書抽出で高いモデル代を払いすぎていないか」を繰り返し実行の数値で突いた点だった。cost-per-successやcritical-field精度まで含めたことで、コスト議論がかなり具体化した。
重要なのは、enterprise OCRの失敗がacademic PDF benchmarkより早くagentを壊すことだ。LlamaIndexはParseBenchがhuman-verifiedの約2,000ページと16.7万超のrulesで14手法をKaggle上で比較すると述べた。
LocalLLaMAが反応したのは翻訳appそのものではなく、detection、visual OCR、inpainting、local LLMを一つのworkflowにした点だった。
重要なのは、document agentsがtables、chart values、visual groundingを失うと業務判断が崩れることだ。ParseBenchは約2,000ページのenterprise documents、167K+ rule-based tests、14 methodsの評価を示す。
LocalLLaMA の投稿は、0.6B と 0.3B の比較的小さな open model でも grounding、segmentation、OCR を実用的に狙えることを示した。
r/LocalLLaMAで紹介されたKreuzberg v4.5は、layoutとtable理解を強化したRustベースのdocument intelligence frameworkだ。投稿では、Docling級の品質を保ちながらメモリ負荷を抑え、処理速度を大きく改善したとしている。