Mistral OCR 4, 170개 언어 문서를 박스·블록·신뢰도까지 구조화한 기업 RAG 모델
Original: Mistral OCR 4 adds boxes, block types, and confidence scores for 170 languages View original →
문서 추출의 출력 형식이 더 촘촘해진다
문서 AI에서 중요한 변화는 글자를 읽는 능력보다, 읽은 내용을 검색·검증·자동화 시스템이 바로 쓸 수 있는 구조로 내보내는 능력이다. Mistral AI는 2026년 6월 23일 X에 올린 글에서 “Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages.”라고 적었다. 이 트윗은 OCR 4가 단순한 OCR 모델이 아니라 문서 안 요소의 위치, 유형, 신뢰도를 함께 반환하는 문서 이해 모델이라는 점을 압축한다. 원문 트윗
Mistral의 공식 글에 따르면 OCR 4는 PDF, DOC, PPT, OpenDocument 같은 기업 문서 형식을 처리하며, 각 블록에 bounding box와 유형 분류를 붙인다. 유형에는 제목, 표, 수식, 서명 등이 포함된다. 단어·페이지 단위 신뢰도 점수도 반환하기 때문에, RAG 파이프라인에서는 더 안정적인 인용 단위를 만들고, 규제 산업에서는 사람이 재검토해야 할 낮은 신뢰도 영역을 골라낼 수 있다.
숫자도 공격적이다. Mistral은 OCR 4가 공개 OlmOCRBench에서 85.20점을 기록했고, 600개 이상 문서와 12개 이상 언어를 포함한 독립 주석자 비교에서 평균 72% 선호율을 얻었다고 설명한다. 내부 다국어 평가에서는 8개 언어 그룹 전반에서 앞섰다고 주장하며, 특히 저자원·전문 언어에서 차이가 컸다고 적었다. API 가격은 1,000페이지당 4달러, Batch API는 50% 할인된 2달러로 제시됐다.
이 계정은 모델과 제품 업데이트를 함께 올리는 Mistral의 공식 채널이다. 이번 글은 AI Now Summit에서 공개된 오픈소스 Search Toolkit과도 연결된다. OCR 4의 구조화된 출력이 검색 도구의 수집·검색·평가 흐름으로 들어가면, 기업 검색과 지식 베이스는 더 작은 문서 조각이 아니라 근거가 붙은 구조 단위를 다루게 된다. 다음 관전점은 실제 고객 문서에서 벤치마크 숫자가 유지되는지, 그리고 self-hosted 배포가 민감한 문서 워크로드를 얼마나 끌어올지다.
Related Articles
불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.
r/LocalLLaMA에서 소개된 Kreuzberg v4.5는 문서 구조 인식과 테이블 추출을 강화한 Rust 기반 document intelligence 프레임워크다. 작성자는 Docling 품질에 맞먹거나 일부 구간에서 앞서는 결과를 더 낮은 메모리 사용량과 함께 제시했다.
공간 추론 에이전트의 핵심이 도구 목록보다 행동 인터페이스일 수 있다는 결과가 나왔다. NVIDIA Research의 SpatialClaw는 20개 벤치마크에서 기존 에이전트보다 11.2점 높고, 6개 VLM 백본 전반에서 일관된 향상을 보였다.