ParseBench, 실제 기업 문서 OCR agent를 16.7만개 규칙 benchmark로 검증한다
Original: ParseBench is the first document parsing benchmark for AI agents View original →
트윗이 드러낸 것
LlamaIndex는 ParseBench를 AI agent를 위한 첫 document parsing benchmark라고 설명하며 “167K+ rule-based test cases”를 내세웠다. 이 신호가 중요한 이유는 agent 시대의 OCR 품질이 사람이 읽을 수 있는 text만의 문제가 아니기 때문이다. agent는 downstream decision을 견딜 수 있는 table structure, chart values, formatting meaning, page-grounded evidence가 필요하다.
LlamaIndex 계정은 framework, LlamaParse, agent infrastructure update를 자주 올린다. 연결된 blog는 이를 단순 제품 글이 아니라 공개 검증 가능한 benchmark로 만든다. dataset, evaluation code, scientific paper가 Hugging Face, GitHub, arXiv에 공개되어 있어, developer가 vendor-written example만 보는 대신 자기 parser를 직접 시험할 수 있다.
benchmark 설계
ParseBench는 약 2,000쪽의 human-verified enterprise document pages와 167,000개 이상의 dense rule-based tests로 구성된다. 평가 축은 tables, charts, content faithfulness, semantic formatting, visual grounding 다섯 가지다. 문서는 academic PDF나 web page에 치우치지 않고 insurance filings, financial reports, government documents 등 공개 enterprise source에서 가져왔다.
blog는 general-purpose vision-language models, specialized document parsers, LlamaParse modes를 합쳐 14개 method를 평가했다고 설명한다. headline result는 LlamaParse Agentic이 overall 84.9%를 기록했다는 점이다. 같은 글은 charts에서 50%를 넘은 provider가 네 곳뿐이며, formatting score는 Docling 1.0%부터 LlamaParse Agentic 85.2%까지 벌어졌고, GPT-5 Mini와 Haiku는 visual grounding에서 8% 아래라고 적었다.
cost section도 구체적이다. LlamaIndex는 LlamaParse Agentic을 page당 약 1.2 cents, Cost Effective mode를 page당 0.4 cents 아래라고 제시한다. 그래서 ParseBench는 model 자랑이 아니라 procurement와 architecture decision에도 쓰일 수 있는 비교표에 가깝다.
다음 관전점은 독립 team들이 ranking을 재현하는지, 그리고 예고한 leaderboard가 실제로 나오는지다. 규제 산업의 document agent에서는 extracted number마다 audit trail이 필요하므로, visual grounding이 가장 중요한 metric이 될 수 있다. 출처: LlamaIndex source tweet · ParseBench blog · ParseBench GitHub repo
Related Articles
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
ModelRift가 6개 AI 코딩 도구를 OpenSCAD 파르테논 모델링 과제로 비교한 결과, Google I/O 2026에서 공개된 Antigravity 2.0이 자율 실행 품질 4.5/5로 선두를 차지했습니다. 내부 격자 천장까지 구현한 유일한 도구였습니다.
MachineLearning 댓글은 “AI detector가 보조도구인지 결정권자인지”를 놓고 강하게 갈렸다.