AI X/Twitter Apr 23, 2026 1 min read
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.