LocalLLaMA의 관심은 “또 하나의 OCR 모델”보다 로컬 문서 파이프라인에 바로 넣을 수 있는 공개 가중치와 낮은 실행 장벽에 모였다.
#ocr
RSS Feedr/MachineLearning이 이 글에 주목한 이유는 “누가 1등인가”보다 “문서 추출에서 너무 비싼 모델을 습관처럼 쓰고 있지 않나”를 숫자로 건드렸기 때문이다. 반복 실행, cost-per-success, critical-field 정확도까지 붙으면서 비용 논쟁이 한층 구체화됐다.
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
LocalLLaMA가 반응한 포인트는 “번역 앱”이 아니라 detection, visual OCR, inpainting, local LLM을 한 번에 묶은 실제 workflow였다.
중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.
LocalLLaMA에서 공유된 Falcon Perception/Falcon OCR 글은 0.6B와 0.3B 규모의 비교적 작은 모델로 grounding, segmentation, OCR을 풀어내는 설계를 부각시켰다.
r/LocalLLaMA에서 소개된 Kreuzberg v4.5는 문서 구조 인식과 테이블 추출을 강화한 Rust 기반 document intelligence 프레임워크다. 작성자는 Docling 품질에 맞먹거나 일부 구간에서 앞서는 결과를 더 낮은 메모리 사용량과 함께 제시했다.
불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.