ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した
Original: ParseBench is the first document parsing benchmark for AI agents View original →
投稿が示したこと
LlamaIndexは、ParseBenchをAI agents向けの最初のdocument parsing benchmarkと位置づけ、“167K+ rule-based test cases” を示した。重要なのは、agent時代のOCR品質が人間に読めるtextだけでは足りないことだ。agentsにはdownstream decisionsに耐えるtables、chart values、formatting meaning、page-grounded evidenceが必要になる。
LlamaIndexアカウントはframework、LlamaParse、agent infrastructure updatesをよく投稿する。リンク先blogは、この話を単なるproduct noteではなく検証可能なbenchmarkにしている。dataset、evaluation code、scientific paperがHugging Face、GitHub、arXivで公開され、developersはvendor examplesだけでなく自分のparserを直接試せる。
benchmarkの作り方
ParseBenchは約2,000ページのhuman-verified enterprise document pagesと、167,000を超えるdense rule-based testsで構成される。評価軸はtables、charts、content faithfulness、semantic formatting、visual groundingの五つだ。documentsはacademic PDFsやweb pagesだけでなく、insurance filings、financial reports、government documentsなど公開enterprise sourcesから集められている。
blogによると、general-purpose vision-language models、specialized document parsers、LlamaParse modesを含む14 methodsが評価された。headline resultは、LlamaParse Agenticがoverallで84.9%を取ったことだ。同じpostは、chartsで50%を超えたprovidersは四つだけ、formatting scoreはDoclingの1.0%からLlamaParse Agenticの85.2%まで開き、GPT-5 MiniとHaikuはvisual groundingで8%未満だったと示す。
cost sectionも具体的だ。LlamaIndexはLlamaParse Agenticをpageあたり約1.2 cents、Cost Effective modeをpageあたり0.4 cents未満としている。これによりParseBenchはmodel braggingではなく、procurementやarchitecture decisionsにも使える比較材料になる。
次に見るべきなのは、independent teamsがrankingsを再現できるか、そして予告されたleaderboardが出るかだ。regulated document agentsでは、抽出した数値ごとにaudit trailが必要になるため、visual groundingが最も重要なmetricになる可能性が高い。出典: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo
Related Articles
重要なのは、enterprise OCRの失敗がacademic PDF benchmarkより早くagentを壊すことだ。LlamaIndexはParseBenchがhuman-verifiedの約2,000ページと16.7万超のrulesで14手法をKaggle上で比較すると述べた。
ModelRiftが6つのAIコーディングツールをOpenSCADパルテノン神殿モデリングで比較したベンチマークで、Google I/O 2026発表のAntigravity 2.0が自律品質スコア4.5/5で首位に立ちました。内部格子天井まで実装した唯一のツールです。
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。