ParseBench、Kaggleで2,000企業ページと16.7万OCR ruleをagent評価向けに公開

tweetが示したこと

LlamaIndexはenterprise OCR評価の輪郭をかなり具体的に示した。中心の文は The first document OCR benchmark built for AI agents — 2,000 enterprise pages, 167K+ test rules, 5 dimensions that actually break downstream agents. である。加えてGPT-5 Mini、Gemini 3、Textract、LlamaParseを含む14手法を比較し、leaderboardがKaggleで公開されたと述べた。

LlamaIndex accountはdocument parsingとagent infrastructureのupdateを主に流す。今回が強いsignalなのは、OCRを抽象的に売っていない点だ。dataset size、evaluation breadth、downstream failure modeを同時に示し、benchmark postとして読める。

linked postが加える文脈

併載されたblog postは、なぜこのbenchmarkが必要かを説明する。enterprise documentは厄介だ。保険filing、financial report、contract、regulatory submissionにはtable、footnote、chart、formatting、visual groundingの問題が混在する。LlamaIndexは、agent時代の基準は「人間が読めるOCR」ではなく、agentがcellやvalueやheaderを黙って読み違えずactionまで進めるだけの信頼性だと主張する。

記事によれば、ParseBenchはhuman-verifiedのenterprise document page約2,000枚と16.7万超のtest ruleを用い、tables、charts、content faithfulness、semantic formatting、visual groundingの5次元を評価する。比較も有用だ。LlamaIndexは、多様性が高いとされるOmniDocBenchでさえenterprise contentは全体の6％にすぎないと書く。さらにdataset、code、paperを公開しているため、black-box leaderboard screenshotよりはるかに実用的だ。

次に見るべき点

次の焦点は、finance、insurance、legal workflowを持つteamが本当にParseBenchでparserを選ぶか、そして予告されているend-to-end agent evaluationが出てくるかだ。もしbenchmarkがprocurementやmodel routingの基準点になるなら、generic OCR leaderboardより現場への影響は大きい。実際のbusiness automationを壊すfailureを直接見ているからだ。

Sources: X source tweet · LlamaIndex ParseBench blog · ParseBench Kaggle leaderboard · ParseBench paper

ParseBench、Kaggleで2,000企業ページと16.7万OCR ruleをagent評価向けに公開

tweetが示したこと

linked postが加える文脈

次に見るべき点

Related Articles

ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

Laravel agent guidelines、HNはagent向け広告の前例として見た

Codex for almost everything、HNはdesktop agentの便利さよりsandboxを見た

Comments (0)

Leave a Comment

Related Articles

ParseBench、実企業文書OCR agentを16.7万規則で検証するbenchmarkを示した

Laravel agent guidelines、HNはagent向け広告の前例として見た

Codex for almost everything、HNはdesktop agentの便利さよりsandboxを見た
AI Hacker News Apr 17, 2026 1 min read