ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

投稿が示したこと

LlamaIndexは、ParseBenchをAI agents向けの最初のdocument parsing benchmarkと位置づけ、“167K+ rule-based test cases” を示した。重要なのは、agent時代のOCR品質が人間に読めるtextだけでは足りないことだ。agentsにはdownstream decisionsに耐えるtables、chart values、formatting meaning、page-grounded evidenceが必要になる。

LlamaIndexアカウントはframework、LlamaParse、agent infrastructure updatesをよく投稿する。リンク先blogは、この話を単なるproduct noteではなく検証可能なbenchmarkにしている。dataset、evaluation code、scientific paperがHugging Face、GitHub、arXivで公開され、developersはvendor examplesだけでなく自分のparserを直接試せる。

benchmarkの作り方

ParseBenchは約2,000ページのhuman-verified enterprise document pagesと、167,000を超えるdense rule-based testsで構成される。評価軸はtables、charts、content faithfulness、semantic formatting、visual groundingの五つだ。documentsはacademic PDFsやweb pagesだけでなく、insurance filings、financial reports、government documentsなど公開enterprise sourcesから集められている。

blogによると、general-purpose vision-language models、specialized document parsers、LlamaParse modesを含む14 methodsが評価された。headline resultは、LlamaParse Agenticがoverallで84.9%を取ったことだ。同じpostは、chartsで50%を超えたprovidersは四つだけ、formatting scoreはDoclingの1.0%からLlamaParse Agenticの85.2%まで開き、GPT-5 MiniとHaikuはvisual groundingで8%未満だったと示す。

cost sectionも具体的だ。LlamaIndexはLlamaParse Agenticをpageあたり約1.2 cents、Cost Effective modeをpageあたり0.4 cents未満としている。これによりParseBenchはmodel braggingではなく、procurementやarchitecture decisionsにも使える比較材料になる。

次に見るべきなのは、independent teamsがrankingsを再現できるか、そして予告されたleaderboardが出るかだ。regulated document agentsでは、抽出した数値ごとにaudit trailが必要になるため、visual groundingが最も重要なmetricになる可能性が高い。出典: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo

ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

投稿が示したこと

benchmarkの作り方

Related Articles

EinsteinArena、Newton時代のkissing number下限を593から604へ押し上げる

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

Hacker Newsで注目を集めたARC-AGI-3、相互作用と適応を軸にした新しいagent benchmark

Comments (0)

Leave a Comment

Related Articles

EinsteinArena、Newton時代のkissing number下限を593から604へ押し上げる
閉じたbenchmarkの更新ではなく、公開数学問題の境界が動いた点が重要だ。TogetherはEinsteinArena上のagentsが11次元kissing numberの下限を593から604へ引き上げ、4月11日時点でopen problemに11件の新SOTAを刻んだと書いた。

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。

Hacker Newsで注目を集めたARC-AGI-3、相互作用と適応を軸にした新しいagent benchmark
AI Hacker News Mar 26, 2026 1 min read