Mistral OCR 4、170言語の文書に位置・分類・信頼度を返す企業向けRAG基盤モデル
Original: Mistral OCR 4 adds boxes, block types, and confidence scores for 170 languages View original →
文書AIはテキスト抽出から構造化へ進む
文書AIで問われているのは、ページを読めるかだけではない。検索、監査、業務自動化がその出力をそのまま使える形で受け取れるかが重要になっている。Mistral AIは2026年6月23日のX投稿で、“Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages.”と書いた。OCR 4は通常のOCR更新ではなく、文書理解モデルとして位置づけられている。 元の投稿
Mistralの公式記事によると、OCR 4はPDF、DOC、PPT、OpenDocumentなど企業で使われる形式を扱う。出力は抽出テキストだけではない。各ブロックにbounding boxを付け、タイトル、表、数式、署名などの種類を分類し、ページ単位と単語単位の信頼度も返す。RAGでは引用しやすい単位を作りやすくなり、法務・金融・医療のような確認作業の多い領域では、低信頼度の箇所を人間のレビューに回しやすくなる。
性能面の主張も具体的だ。MistralはOCR 4が公開ベンチマークのOlmOCRBenchで85.20点を記録したと説明している。さらに600件以上の文書と12以上の言語を含む比較で、独立した注釈者が平均72%の割合でOCR 4の出力を選んだとしている。社内の多言語評価では8つの言語グループで優位に立ち、特に専門言語や低リソース言語で差が大きいという。API価格は1,000ページあたり4ドル、Batch APIでは50%割引で2ドルとされる。
Mistralの公式Xアカウントは、モデル、製品、研究の更新を直接伝える主要チャネルだ。今回のOCR 4は、AI Now Summitで示されたオープンソースのSearch Toolkitとも結びつく。構造化された文書出力が取り込み、検索、評価の流れに入ると、企業検索は単なるテキスト断片ではなく、根拠と位置を持つ部品を扱える。次に見るべき点は、顧客企業の乱れた実文書でもスコアが維持されるか、そして単一コンテナでのself-hosted提供がデータ主権を重視する導入をどこまで広げるかだ。
Related Articles
r/LocalLLaMAで紹介されたKreuzberg v4.5は、layoutとtable理解を強化したRustベースのdocument intelligence frameworkだ。投稿では、Docling級の品質を保ちながらメモリ負荷を抑え、処理速度を大きく改善したとしている。
空間推論エージェントでは、道具の数より行動インターフェースが効く可能性がある。NVIDIA ResearchのSpatialClawは20ベンチマークで既存手法を11.2ポイント上回り、6つのVLMバックボーンで改善した。
AI動画では品質だけでなく待ち時間も競争軸になっている。xAIは6秒の720p動画を約25秒で生成でき、前モデルの40秒超から短縮したと説明した。