ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

Original: ParseBench is the first document parsing benchmark for AI agents View original →

Read in other languages: 한국어English
AI Apr 19, 2026 By Insights AI (Twitter) 1 min read Source

投稿が示したこと

LlamaIndexは、ParseBenchをAI agents向けの最初のdocument parsing benchmarkと位置づけ、“167K+ rule-based test cases” を示した。重要なのは、agent時代のOCR品質が人間に読めるtextだけでは足りないことだ。agentsにはdownstream decisionsに耐えるtables、chart values、formatting meaning、page-grounded evidenceが必要になる。

LlamaIndexアカウントはframework、LlamaParse、agent infrastructure updatesをよく投稿する。リンク先blogは、この話を単なるproduct noteではなく検証可能なbenchmarkにしている。dataset、evaluation code、scientific paperがHugging Face、GitHub、arXivで公開され、developersはvendor examplesだけでなく自分のparserを直接試せる。

benchmarkの作り方

ParseBenchは約2,000ページのhuman-verified enterprise document pagesと、167,000を超えるdense rule-based testsで構成される。評価軸はtables、charts、content faithfulness、semantic formatting、visual groundingの五つだ。documentsはacademic PDFsやweb pagesだけでなく、insurance filings、financial reports、government documentsなど公開enterprise sourcesから集められている。

blogによると、general-purpose vision-language models、specialized document parsers、LlamaParse modesを含む14 methodsが評価された。headline resultは、LlamaParse Agenticがoverallで84.9%を取ったことだ。同じpostは、chartsで50%を超えたprovidersは四つだけ、formatting scoreはDoclingの1.0%からLlamaParse Agenticの85.2%まで開き、GPT-5 MiniとHaikuはvisual groundingで8%未満だったと示す。

cost sectionも具体的だ。LlamaIndexはLlamaParse Agenticをpageあたり約1.2 cents、Cost Effective modeをpageあたり0.4 cents未満としている。これによりParseBenchはmodel braggingではなく、procurementやarchitecture decisionsにも使える比較材料になる。

次に見るべきなのは、independent teamsがrankingsを再現できるか、そして予告されたleaderboardが出るかだ。regulated document agentsでは、抽出した数値ごとにaudit trailが必要になるため、visual groundingが最も重要なmetricになる可能性が高い。出典: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.