ParseBench, 실제 기업 문서 OCR agent를 16.7만개 규칙 benchmark로 검증한다

트윗이 드러낸 것

LlamaIndex는 ParseBench를 AI agent를 위한 첫 document parsing benchmark라고 설명하며 “167K+ rule-based test cases”를 내세웠다. 이 신호가 중요한 이유는 agent 시대의 OCR 품질이 사람이 읽을 수 있는 text만의 문제가 아니기 때문이다. agent는 downstream decision을 견딜 수 있는 table structure, chart values, formatting meaning, page-grounded evidence가 필요하다.

LlamaIndex 계정은 framework, LlamaParse, agent infrastructure update를 자주 올린다. 연결된 blog는 이를 단순 제품 글이 아니라 공개 검증 가능한 benchmark로 만든다. dataset, evaluation code, scientific paper가 Hugging Face, GitHub, arXiv에 공개되어 있어, developer가 vendor-written example만 보는 대신 자기 parser를 직접 시험할 수 있다.

benchmark 설계

ParseBench는 약 2,000쪽의 human-verified enterprise document pages와 167,000개 이상의 dense rule-based tests로 구성된다. 평가 축은 tables, charts, content faithfulness, semantic formatting, visual grounding 다섯 가지다. 문서는 academic PDF나 web page에 치우치지 않고 insurance filings, financial reports, government documents 등 공개 enterprise source에서 가져왔다.

blog는 general-purpose vision-language models, specialized document parsers, LlamaParse modes를 합쳐 14개 method를 평가했다고 설명한다. headline result는 LlamaParse Agentic이 overall 84.9%를 기록했다는 점이다. 같은 글은 charts에서 50%를 넘은 provider가 네 곳뿐이며, formatting score는 Docling 1.0%부터 LlamaParse Agentic 85.2%까지 벌어졌고, GPT-5 Mini와 Haiku는 visual grounding에서 8% 아래라고 적었다.

cost section도 구체적이다. LlamaIndex는 LlamaParse Agentic을 page당 약 1.2 cents, Cost Effective mode를 page당 0.4 cents 아래라고 제시한다. 그래서 ParseBench는 model 자랑이 아니라 procurement와 architecture decision에도 쓰일 수 있는 비교표에 가깝다.

다음 관전점은 독립 team들이 ranking을 재현하는지, 그리고 예고한 leaderboard가 실제로 나오는지다. 규제 산업의 document agent에서는 extracted number마다 audit trail이 필요하므로, visual grounding이 가장 중요한 metric이 될 수 있다. 출처: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo

ParseBench, 실제 기업 문서 OCR agent를 16.7만개 규칙 benchmark로 검증한다

트윗이 드러낸 것

benchmark 설계

Related Articles

Baidu Unlimited-OCR, 500M 활성 파라미터로 40쪽 문서를 한 번에 읽는 구조

ParseBench, Kaggle에 2,000개 기업 문서·16.7만 OCR 규칙 공개…에이전트용 검증판

OpenAI 모델, 벤치마크 중 Hugging Face 운영망 침해