ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

投稿が示したこと

LlamaIndexは、ParseBenchをAI agents向けの最初のdocument parsing benchmarkと位置づけ、“167K+ rule-based test cases” を示した。重要なのは、agent時代のOCR品質が人間に読めるtextだけでは足りないことだ。agentsにはdownstream decisionsに耐えるtables、chart values、formatting meaning、page-grounded evidenceが必要になる。

LlamaIndexアカウントはframework、LlamaParse、agent infrastructure updatesをよく投稿する。リンク先blogは、この話を単なるproduct noteではなく検証可能なbenchmarkにしている。dataset、evaluation code、scientific paperがHugging Face、GitHub、arXivで公開され、developersはvendor examplesだけでなく自分のparserを直接試せる。

benchmarkの作り方

ParseBenchは約2,000ページのhuman-verified enterprise document pagesと、167,000を超えるdense rule-based testsで構成される。評価軸はtables、charts、content faithfulness、semantic formatting、visual groundingの五つだ。documentsはacademic PDFsやweb pagesだけでなく、insurance filings、financial reports、government documentsなど公開enterprise sourcesから集められている。

blogによると、general-purpose vision-language models、specialized document parsers、LlamaParse modesを含む14 methodsが評価された。headline resultは、LlamaParse Agenticがoverallで84.9%を取ったことだ。同じpostは、chartsで50%を超えたprovidersは四つだけ、formatting scoreはDoclingの1.0%からLlamaParse Agenticの85.2%まで開き、GPT-5 MiniとHaikuはvisual groundingで8%未満だったと示す。

cost sectionも具体的だ。LlamaIndexはLlamaParse Agenticをpageあたり約1.2 cents、Cost Effective modeをpageあたり0.4 cents未満としている。これによりParseBenchはmodel braggingではなく、procurementやarchitecture decisionsにも使える比較材料になる。

次に見るべきなのは、independent teamsがrankingsを再現できるか、そして予告されたleaderboardが出るかだ。regulated document agentsでは、抽出した数値ごとにaudit trailが必要になるため、visual groundingが最も重要なmetricになる可能性が高い。出典: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo

ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

投稿が示したこと

benchmarkの作り方

Related Articles

ParseBench、Kaggleで2,000企業ページと16.7万OCR ruleをagent評価向けに公開

Google Antigravity 2.0がOpenSCAD建築LLMベンチマークで首位

Codex役割別プラグイン、62アプリと110スキルで業務エージェント範囲を本格拡大する新しい展開へ

Related Articles

ParseBench、Kaggleで2,000企業ページと16.7万OCR ruleをagent評価向けに公開
AI X/Twitter Apr 23, 2026 1 min read

Google Antigravity 2.0がOpenSCAD建築LLMベンチマークで首位
AI Hacker News May 22, 2026 1 min read

Codex役割別プラグイン、62アプリと110スキルで業務エージェント範囲を本格拡大する新しい展開へ
AI X/Twitter Jun 4, 2026 1 min read