OCR 모델 경쟁, 이제 benchmark보다 ingestion 품질 싸움

OCR이 다시 AI 인프라의 앞단으로 올라왔다. r/MachineLearning에 올라온 Papers with Code OCR 정리는 공개 benchmark, 상위 open model, 논문과 코드 링크를 한곳에 모아 보려는 시도다. 같은 주에 Baidu의 Unlimited-OCR와 Mistral OCR 4가 공개되면서, 단순히 이미지에서 글자를 읽는 기능보다 PDF와 스캔 문서를 agent와 RAG가 먹을 수 있는 구조화된 입력으로 바꾸는 품질이 관심사가 됐다.

게시자는 OCR을 “회사 데이터 ingestion”의 관문으로 설명했다. AI agent는 Markdown이나 구조화된 텍스트를 다루기 쉽지만, 실제 기업 자료는 표, 주석, 다단 문서, 스캔 이미지, 손상된 레이아웃이 섞인 PDF로 남아 있다. 이 간극을 줄이는 모델은 검색, 요약, compliance 검토, 도메인별 retrieval 파이프라인의 성능을 직접 좌우한다.

Baidu Unlimited-OCR는 README에서 one-shot long-horizon parsing을 전면에 세운다. 3B parameter 규모의 모델이며, Reference Sliding Window Attention(R-SWA)을 핵심 아이디어로 소개한다. Hugging Face와 ModelScope 배포, arXiv 논문, multi-page/PDF 추론 예시도 함께 공개됐다. 긴 문서 처리와 layout 보존을 노리는 연구형 open model에 가깝다.

Mistral OCR 4는 다른 방향에서 같은 문제를 겨냥한다. Mistral은 OCR 4가 bounding boxes, block classification, inline confidence scores를 텍스트 추출과 함께 제공한다고 설명한다. 170개 언어와 10개 language group 지원, self-hosted deployment용 single container도 내세운다. enterprise search나 RAG에 바로 연결하기 쉬운 운영형 ingestion component로 포지셔닝한 셈이다.

커뮤니티가 Papers with Code 정리에 반응한 이유는 비교 표 자체의 편의성만이 아니다. OCR 모델은 데모 몇 장으로 좋아 보이기 쉽고, 실제 문서에서는 표 구조, 작은 글자, 수식, 여러 언어, 페이지 간 문맥에서 차이가 벌어진다. 공개 benchmark와 코드 링크를 모아두면 “무엇이 잘 보이는가”보다 “어떤 실패를 줄였는가”를 확인하기 쉬워진다.

이번 흐름은 document AI가 LLM 주변 기능이 아니라 데이터 파이프라인의 핵심 병목임을 보여준다. 좋은 OCR은 더 긴 context window보다 먼저 필요할 때가 많다. 모델이 읽을 수 없는 문서는 검색할 수도, 요약할 수도, 검증할 수도 없기 때문이다.

OCR 모델 경쟁, 이제 benchmark보다 ingestion 품질 싸움

Related Articles

GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축

Bayer PRINCE 사례, agentic RAG가 운영 시스템이 되려면 필요한 것

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개