OCR에서 비싼 최신 모델이 늘 답은 아니라는 결과, r/MachineLearning 반응

Original: We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R] View original →

Read in other languages: English日本語
LLM Apr 24, 2026 By Insights AI (Reddit) 2 min read Source

이 Reddit 글이 던진 핵심

이 글의 포인트는 “LLM이 OCR을 이긴다”가 아니다. 더 실무적이다. 표준 업무 문서 추출에서는 많은 팀이 최신 고가 모델을 기본값처럼 쓰며 과금하고 있지만, 실제로는 더 싸고 오래된 모델도 충분히 버틸 수 있다는 주장이다. 작성자는 42개 문서, 18개 모델, 총 7,560회 호출로 mini-benchmark를 돌렸다고 설명했다. 그리고 단일 정확도 대신 pass^n, cost-per-success, latency, critical-field accuracy를 함께 봤다. 바로 이 지점이 r/MachineLearning 사용자들의 관심을 끌었다. 단순 랭킹표가 아니라, 실제 운영비와 안정성을 같이 보려 했기 때문이다.

현재 리더보드가 보여 주는 것

링크된 leaderboard는 그 주장을 숫자로 뒷받침한다. 전체 표에서 Gemini 3 FlashClaude Sonnet 4.6는 모두 73.8% success를 기록하지만, 성공 1건당 비용은 Gemini 쪽이 훨씬 낮게 나온다. 반면 GPT-5.449.2%, GPT-544.6%에 그친다. 또 Gemini 2.5 Flash-Lite처럼 더 저렴한 모델도 꽤 경쟁력 있는 결과를 유지한다. 이런 표는 운영팀에 바로 와닿는다. 인보이스나 영수증, 물류 문서의 핵심 필드만 안정적으로 뽑히면 되는 워크플로우라면, “최신 SOTA니까”라는 이유만으로 더 비싼 모델을 고르는 관행이 흔들릴 수밖에 없다.

커뮤니티가 바로 제기한 반론

댓글도 꽤 날카로웠다. 가장 많이 나온 지적은 범위 문제였다. Tesseract, PaddleOCR, OCR 특화 오픈 모델들, 심지어 multi-stage 파이프라인까지 빠진 상태에서 LLM끼리만 비교하면 너무 좁은 slice라는 것이다. 이 반론은 맞다. 이 benchmark는 LLM 기반 추출 스택끼리의 비교에는 유용하지만, “애초에 LLM을 써야 하나”라는 질문까지 닫아 주지는 못한다. 다른 댓글은 structured document에서는 전통 OCR이 이미 95% 가까이 해결하는 경우가 많은데, LLM은 속도와 비용 면에서 과한 선택일 수 있다고 적었다. 즉 커뮤니티는 결과를 흥미롭게 보면서도, baseline이 더 넓어져야 실제 의사결정 도구가 된다고 본다.

그래도 왜 고신호인가

그럼에도 이 포스트가 의미 있는 이유는 열려 있는 산출물과 실무형 지표가 함께 있다는 점이다. repo는 benchmark 코드와 데이터 구조를 공개했고, leaderboard는 반복 실행 기반 reliability를 표면으로 끌어올렸다. 그래서 이 논의는 흔한 “어느 모델이 더 똑똑한가”보다 한 단계 구체적이다. r/MachineLearning의 진짜 반응도 거기에 있었다. 누가 최강인지보다, 문서 AI에서는 비용과 일관성을 훨씬 더 엄격하게 계산해야 하고, 많은 팀이 최신 모델이라는 이유만으로 불필요한 비용을 쓰고 있을지 모른다는 것이다.

출처: ArbitrAI leaderboard · OCR mini-bench repository · Reddit 토론

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.