Mistral OCR 4, 170개 언어 문서를 박스·블록·신뢰도까지 구조화한 기업 RAG 모델

문서 추출의 출력 형식이 더 촘촘해진다

문서 AI에서 중요한 변화는 글자를 읽는 능력보다, 읽은 내용을 검색·검증·자동화 시스템이 바로 쓸 수 있는 구조로 내보내는 능력이다. Mistral AI는 2026년 6월 23일 X에 올린 글에서 “Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages.”라고 적었다. 이 트윗은 OCR 4가 단순한 OCR 모델이 아니라 문서 안 요소의 위치, 유형, 신뢰도를 함께 반환하는 문서 이해 모델이라는 점을 압축한다. 원문 트윗

Mistral의 공식 글에 따르면 OCR 4는 PDF, DOC, PPT, OpenDocument 같은 기업 문서 형식을 처리하며, 각 블록에 bounding box와 유형 분류를 붙인다. 유형에는 제목, 표, 수식, 서명 등이 포함된다. 단어·페이지 단위 신뢰도 점수도 반환하기 때문에, RAG 파이프라인에서는 더 안정적인 인용 단위를 만들고, 규제 산업에서는 사람이 재검토해야 할 낮은 신뢰도 영역을 골라낼 수 있다.

숫자도 공격적이다. Mistral은 OCR 4가 공개 OlmOCRBench에서 85.20점을 기록했고, 600개 이상 문서와 12개 이상 언어를 포함한 독립 주석자 비교에서 평균 72% 선호율을 얻었다고 설명한다. 내부 다국어 평가에서는 8개 언어 그룹 전반에서 앞섰다고 주장하며, 특히 저자원·전문 언어에서 차이가 컸다고 적었다. API 가격은 1,000페이지당 4달러, Batch API는 50% 할인된 2달러로 제시됐다.

이 계정은 모델과 제품 업데이트를 함께 올리는 Mistral의 공식 채널이다. 이번 글은 AI Now Summit에서 공개된 오픈소스 Search Toolkit과도 연결된다. OCR 4의 구조화된 출력이 검색 도구의 수집·검색·평가 흐름으로 들어가면, 기업 검색과 지식 베이스는 더 작은 문서 조각이 아니라 근거가 붙은 구조 단위를 다루게 된다. 다음 관전점은 실제 고객 문서에서 벤치마크 숫자가 유지되는지, 그리고 self-hosted 배포가 민감한 문서 워크로드를 얼마나 끌어올지다.

Mistral OCR 4, 170개 언어 문서를 박스·블록·신뢰도까지 구조화한 기업 RAG 모델

문서 추출의 출력 형식이 더 촘촘해진다

Related Articles

GLM-OCR: 복잡한 문서 이해를 위한 초경량 멀티모달 OCR 모델

Kreuzberg v4.5, Docling 레이아웃 모델을 Rust 파이프라인으로 가속

SpatialClaw, 20개 공간 추론 벤치마크에서 기존 에이전트보다 11.2점 우위