ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した
Original: ParseBench is the first document parsing benchmark for AI agents View original →
投稿が示したこと
LlamaIndexは、ParseBenchをAI agents向けの最初のdocument parsing benchmarkと位置づけ、“167K+ rule-based test cases” を示した。重要なのは、agent時代のOCR品質が人間に読めるtextだけでは足りないことだ。agentsにはdownstream decisionsに耐えるtables、chart values、formatting meaning、page-grounded evidenceが必要になる。
LlamaIndexアカウントはframework、LlamaParse、agent infrastructure updatesをよく投稿する。リンク先blogは、この話を単なるproduct noteではなく検証可能なbenchmarkにしている。dataset、evaluation code、scientific paperがHugging Face、GitHub、arXivで公開され、developersはvendor examplesだけでなく自分のparserを直接試せる。
benchmarkの作り方
ParseBenchは約2,000ページのhuman-verified enterprise document pagesと、167,000を超えるdense rule-based testsで構成される。評価軸はtables、charts、content faithfulness、semantic formatting、visual groundingの五つだ。documentsはacademic PDFsやweb pagesだけでなく、insurance filings、financial reports、government documentsなど公開enterprise sourcesから集められている。
blogによると、general-purpose vision-language models、specialized document parsers、LlamaParse modesを含む14 methodsが評価された。headline resultは、LlamaParse Agenticがoverallで84.9%を取ったことだ。同じpostは、chartsで50%を超えたprovidersは四つだけ、formatting scoreはDoclingの1.0%からLlamaParse Agenticの85.2%まで開き、GPT-5 MiniとHaikuはvisual groundingで8%未満だったと示す。
cost sectionも具体的だ。LlamaIndexはLlamaParse Agenticをpageあたり約1.2 cents、Cost Effective modeをpageあたり0.4 cents未満としている。これによりParseBenchはmodel braggingではなく、procurementやarchitecture decisionsにも使える比較材料になる。
次に見るべきなのは、independent teamsがrankingsを再現できるか、そして予告されたleaderboardが出るかだ。regulated document agentsでは、抽出した数値ごとにaudit trailが必要になるため、visual groundingが最も重要なmetricになる可能性が高い。出典: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo
Related Articles
閉じたbenchmarkの更新ではなく、公開数学問題の境界が動いた点が重要だ。TogetherはEinsteinArena上のagentsが11次元kissing numberの下限を593から604へ引き上げ、4月11日時点でopen problemに11件の新SOTAを刻んだと書いた。
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。
Comments (0)
No comments yet. Be the first to comment!