ParseBench、Kaggleで2,000企業ページと16.7万OCR ruleをagent評価向けに公開
Original: LlamaIndex took ParseBench to Kaggle with 2,000 enterprise pages, 167K-plus test rules, and 14 OCR methods View original →
tweetが示したこと
LlamaIndexはenterprise OCR評価の輪郭をかなり具体的に示した。中心の文は The first document OCR benchmark built for AI agents — 2,000 enterprise pages, 167K+ test rules, 5 dimensions that actually break downstream agents. である。加えてGPT-5 Mini、Gemini 3、Textract、LlamaParseを含む14手法を比較し、leaderboardがKaggleで公開されたと述べた。
LlamaIndex accountはdocument parsingとagent infrastructureのupdateを主に流す。今回が強いsignalなのは、OCRを抽象的に売っていない点だ。dataset size、evaluation breadth、downstream failure modeを同時に示し、benchmark postとして読める。
linked postが加える文脈
併載されたblog postは、なぜこのbenchmarkが必要かを説明する。enterprise documentは厄介だ。保険filing、financial report、contract、regulatory submissionにはtable、footnote、chart、formatting、visual groundingの問題が混在する。LlamaIndexは、agent時代の基準は「人間が読めるOCR」ではなく、agentがcellやvalueやheaderを黙って読み違えずactionまで進めるだけの信頼性だと主張する。
記事によれば、ParseBenchはhuman-verifiedのenterprise document page約2,000枚と16.7万超のtest ruleを用い、tables、charts、content faithfulness、semantic formatting、visual groundingの5次元を評価する。比較も有用だ。LlamaIndexは、多様性が高いとされるOmniDocBenchでさえenterprise contentは全体の6%にすぎないと書く。さらにdataset、code、paperを公開しているため、black-box leaderboard screenshotよりはるかに実用的だ。
次に見るべき点
次の焦点は、finance、insurance、legal workflowを持つteamが本当にParseBenchでparserを選ぶか、そして予告されているend-to-end agent evaluationが出てくるかだ。もしbenchmarkがprocurementやmodel routingの基準点になるなら、generic OCR leaderboardより現場への影響は大きい。実際のbusiness automationを壊すfailureを直接見ているからだ。
Sources: X source tweet · LlamaIndex ParseBench blog · ParseBench Kaggle leaderboard · ParseBench paper
Related Articles
重要なのは、document agentsがtables、chart values、visual groundingを失うと業務判断が崩れることだ。ParseBenchは約2,000ページのenterprise documents、167K+ rule-based tests、14 methodsの評価を示す。
HNで200 pointsを超えた理由はLaravel Cloudの一文ではなく、agent contextが広告枠になり得るという違和感だった。
HNはCodexをfeature一覧ではなくpermission問題として読んだ。desktop agent、non-developer workflow、sensitive file、そしてAIにcomputer操作をどこまで任せるのかが議論の中心だった。
Comments (0)
No comments yet. Be the first to comment!