#ocr

AI X/Twitter 6d ago 1 min read

Baidu Unlimited-OCR, 500M 활성 파라미터로 40쪽 문서를 한 번에 읽는 구조

문서 AI의 비용 병목은 페이지 단위 분할과 길어지는 KV cache다. Unlimited-OCR은 3B 전체 파라미터 중 500M만 활성화하면서 40쪽 문서와 32K 컨텍스트를 한 번에 처리한다고 소개됐다.

LLM Reddit Jun 24, 2026 1 min read

OCR 모델 경쟁, 이제 benchmark보다 ingestion 품질 싸움

r/MachineLearning의 관심은 새 OCR 모델 이름보다 비교 가능한 기준에 모였다. Baidu Unlimited-OCR와 Mistral OCR 4가 같은 주에 나오면서 문서 ingestion 성능을 한곳에서 보려는 수요가 커졌다.

#ocr #document-ai #rag

AI X/Twitter Jun 24, 2026 1 min read

Mistral OCR 4, 170개 언어 문서를 박스·블록·신뢰도까지 구조화한 기업 RAG 모델

문서 AI 경쟁의 초점이 단순 텍스트 추출에서 위치·유형·신뢰도까지 포함한 구조화로 옮겨간다. Mistral은 OCR 4가 170개 언어를 지원하고 OlmOCRBench 85.20점을 기록했다고 밝혔다.

#mistral-ai #ocr #document-ai

LLM Reddit May 26, 2026 1 min read

NuExtract3, 4GB VRAM까지 노린 문서 추출 VLM

LocalLLaMA의 관심은 “또 하나의 OCR 모델”보다 로컬 문서 파이프라인에 바로 넣을 수 있는 공개 가중치와 낮은 실행 장벽에 모였다.

#nuextract3 #vlm #ocr

LLM Reddit Apr 24, 2026 2 min read

OCR에서 비싼 최신 모델이 늘 답은 아니라는 결과, r/MachineLearning 반응

r/MachineLearning이 이 글에 주목한 이유는 “누가 1등인가”보다 “문서 추출에서 너무 비싼 모델을 습관처럼 쓰고 있지 않나”를 숫자로 건드렸기 때문이다. 반복 실행, cost-per-success, critical-field 정확도까지 붙으면서 비용 논쟁이 한층 구체화됐다.

#ocr #benchmarks #llms

AI X/Twitter Apr 23, 2026 1 min read

ParseBench, Kaggle에 2,000개 기업 문서·16.7만 OCR 규칙 공개…에이전트용 검증판

중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.

#llamaindex #parsebench #ocr

LLM Reddit Apr 22, 2026 1 min read

Rust·llama.cpp manga translator, LocalLLaMA가 본 local OCR pipeline의 손맛

LocalLLaMA가 반응한 포인트는 “번역 앱”이 아니라 detection, visual OCR, inpainting, local LLM을 한 번에 묶은 실제 workflow였다.

#llama-cpp #ocr #local-llm

AI X/Twitter Apr 19, 2026 1 min read

ParseBench, 실제 기업 문서 OCR agent를 16.7만개 규칙 benchmark로 검증한다

중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.

#llamaindex #parsebench #ocr

AI Reddit Apr 1, 2026 1 min read

Falcon Perception과 Falcon OCR, 작은 vision-language 모델이 보여준 실용성

LocalLLaMA에서 공유된 Falcon Perception/Falcon OCR 글은 0.6B와 0.3B 규모의 비교적 작은 모델로 grounding, segmentation, OCR을 풀어내는 설계를 부각시켰다.

#vision-language #ocr #grounding

AI Reddit Mar 22, 2026 1 min read

Kreuzberg v4.5, Docling 레이아웃 모델을 Rust 파이프라인으로 가속

r/LocalLLaMA에서 소개된 Kreuzberg v4.5는 문서 구조 인식과 테이블 추출을 강화한 Rust 기반 document intelligence 프레임워크다. 작성자는 Docling 품질에 맞먹거나 일부 구간에서 앞서는 결과를 더 낮은 메모리 사용량과 함께 제시했다.

#document-ai #ocr #rust

AI Hacker News Feb 12, 2026 1 min read

GLM-OCR: 복잡한 문서 이해를 위한 초경량 멀티모달 OCR 모델

불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.

#ocr #multimodal #document-ai