Mistral OCR 4、170言語の文書に位置・分類・信頼度を返す企業向けRAG基盤モデル

文書AIはテキスト抽出から構造化へ進む

文書AIで問われているのは、ページを読めるかだけではない。検索、監査、業務自動化がその出力をそのまま使える形で受け取れるかが重要になっている。Mistral AIは2026年6月23日のX投稿で、“Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages.”と書いた。OCR 4は通常のOCR更新ではなく、文書理解モデルとして位置づけられている。元の投稿

Mistralの公式記事によると、OCR 4はPDF、DOC、PPT、OpenDocumentなど企業で使われる形式を扱う。出力は抽出テキストだけではない。各ブロックにbounding boxを付け、タイトル、表、数式、署名などの種類を分類し、ページ単位と単語単位の信頼度も返す。RAGでは引用しやすい単位を作りやすくなり、法務・金融・医療のような確認作業の多い領域では、低信頼度の箇所を人間のレビューに回しやすくなる。

性能面の主張も具体的だ。MistralはOCR 4が公開ベンチマークのOlmOCRBenchで85.20点を記録したと説明している。さらに600件以上の文書と12以上の言語を含む比較で、独立した注釈者が平均72%の割合でOCR 4の出力を選んだとしている。社内の多言語評価では8つの言語グループで優位に立ち、特に専門言語や低リソース言語で差が大きいという。API価格は1,000ページあたり4ドル、Batch APIでは50%割引で2ドルとされる。

Mistralの公式Xアカウントは、モデル、製品、研究の更新を直接伝える主要チャネルだ。今回のOCR 4は、AI Now Summitで示されたオープンソースのSearch Toolkitとも結びつく。構造化された文書出力が取り込み、検索、評価の流れに入ると、企業検索は単なるテキスト断片ではなく、根拠と位置を持つ部品を扱える。次に見るべき点は、顧客企業の乱れた実文書でもスコアが維持されるか、そして単一コンテナでのself-hosted提供がデータ主権を重視する導入をどこまで広げるかだ。

Mistral OCR 4、170言語の文書に位置・分類・信頼度を返す企業向けRAG基盤モデル

文書AIはテキスト抽出から構造化へ進む

Related Articles

Kreuzberg v4.5、Rust-nativeで文書レイアウト抽出を高速化

SpatialClaw、20ベンチマークで既存空間エージェントを11.2点上回る

Grok Imagine Video 1.5、720p生成を40秒超から25秒へ短縮