ParseBench, Kaggle에 2,000개 기업 문서·16.7만 OCR 규칙 공개…에이전트용 검증판
Original: LlamaIndex took ParseBench to Kaggle with 2,000 enterprise pages, 167K-plus test rules, and 14 OCR methods View original →
트윗이 드러낸 것
LlamaIndex는 enterprise OCR 평가의 모양을 꽤 구체적으로 제시했다. 핵심 문장은 The first document OCR benchmark built for AI agents — 2,000 enterprise pages, 167K+ test rules, 5 dimensions that actually break downstream agents. 이다. 이어서 GPT-5 Mini, Gemini 3, Textract, LlamaParse를 포함한 14개 방법을 비교하고, leaderboard가 Kaggle에서 공개됐다고 적었다.
LlamaIndex 계정은 document parsing과 agent infrastructure 업데이트를 주로 올린다. 이번 포스트가 강한 신호인 이유는 OCR을 추상적으로 홍보하지 않기 때문이다. dataset 크기, 평가 범위, downstream failure mode를 동시에 제시해 benchmark post답게 읽힌다.
linked post가 보탠 맥락
동반된 블로그 글은 왜 이런 benchmark가 필요한지를 설명한다. enterprise 문서는 지저분하다. 보험 filing, financial report, contract, regulatory submission에는 표, 각주, 차트, 서식 정보, visual grounding 문제가 뒤섞여 있다. LlamaIndex는 이제 agent 기준에서 중요한 것은 “사람이 읽을 수 있을 정도”가 아니라, 잘못된 셀이나 숫자, header를 조용히 오독하지 않고 action까지 이어질 수 있을 정도의 신뢰성이라고 본다.
글에 따르면 ParseBench는 사람 검증을 거친 enterprise document page 약 2,000개와 167,000개가 넘는 test rule로 다섯 차원을 평가한다. tables, charts, content faithfulness, semantic formatting, visual grounding이 그것이다. 비교 지점도 유용하다. LlamaIndex는 가장 다양한 OCR benchmark 중 하나로 꼽히는 OmniDocBench조차 enterprise content 비중이 6%에 그친다고 적는다. 게다가 dataset, code, paper를 함께 공개해 black-box leaderboard screenshot보다 훨씬 낫다.
다음 관전 포인트
이제 관건은 finance, insurance, legal workflow를 가진 팀이 실제 parser 선택에 ParseBench를 쓰는지, 그리고 예고한 end-to-end agent evaluation이 뒤따르는지다. 만약 이 benchmark가 procurement와 model routing의 기준점이 된다면, generic OCR leaderboard보다 실무 영향력이 더 클 수 있다. 실제 business automation을 망가뜨리는 failure를 겨누기 때문이다.
Sources: X source tweet · LlamaIndex ParseBench blog · ParseBench Kaggle leaderboard · ParseBench paper
Related Articles
중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.
HN이 200점 넘게 반응한 이유는 Laravel Cloud 문구 하나보다, agent context가 새로운 광고 지면이 될 수 있다는 불편함이었다.
Anthropic이 Claude Design을 research preview로 열며 Opus 4.7을 prototype, slide, one-pager 제작 workflow에 붙였다. Pro, Max, Team, Enterprise 사용자는 design system 자동 적용, Canva/PPTX/PDF export, Claude Code handoff까지 한 화면에서 테스트하게 된다.
Comments (0)
No comments yet. Be the first to comment!