OCR에서 비싼 최신 모델이 늘 답은 아니라는 결과, r/MachineLearning 반응
Original: We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R] View original →
이 Reddit 글이 던진 핵심
이 글의 포인트는 “LLM이 OCR을 이긴다”가 아니다. 더 실무적이다. 표준 업무 문서 추출에서는 많은 팀이 최신 고가 모델을 기본값처럼 쓰며 과금하고 있지만, 실제로는 더 싸고 오래된 모델도 충분히 버틸 수 있다는 주장이다. 작성자는 42개 문서, 18개 모델, 총 7,560회 호출로 mini-benchmark를 돌렸다고 설명했다. 그리고 단일 정확도 대신 pass^n, cost-per-success, latency, critical-field accuracy를 함께 봤다. 바로 이 지점이 r/MachineLearning 사용자들의 관심을 끌었다. 단순 랭킹표가 아니라, 실제 운영비와 안정성을 같이 보려 했기 때문이다.
현재 리더보드가 보여 주는 것
링크된 leaderboard는 그 주장을 숫자로 뒷받침한다. 전체 표에서 Gemini 3 Flash와 Claude Sonnet 4.6는 모두 73.8% success를 기록하지만, 성공 1건당 비용은 Gemini 쪽이 훨씬 낮게 나온다. 반면 GPT-5.4는 49.2%, GPT-5는 44.6%에 그친다. 또 Gemini 2.5 Flash-Lite처럼 더 저렴한 모델도 꽤 경쟁력 있는 결과를 유지한다. 이런 표는 운영팀에 바로 와닿는다. 인보이스나 영수증, 물류 문서의 핵심 필드만 안정적으로 뽑히면 되는 워크플로우라면, “최신 SOTA니까”라는 이유만으로 더 비싼 모델을 고르는 관행이 흔들릴 수밖에 없다.
커뮤니티가 바로 제기한 반론
댓글도 꽤 날카로웠다. 가장 많이 나온 지적은 범위 문제였다. Tesseract, PaddleOCR, OCR 특화 오픈 모델들, 심지어 multi-stage 파이프라인까지 빠진 상태에서 LLM끼리만 비교하면 너무 좁은 slice라는 것이다. 이 반론은 맞다. 이 benchmark는 LLM 기반 추출 스택끼리의 비교에는 유용하지만, “애초에 LLM을 써야 하나”라는 질문까지 닫아 주지는 못한다. 다른 댓글은 structured document에서는 전통 OCR이 이미 95% 가까이 해결하는 경우가 많은데, LLM은 속도와 비용 면에서 과한 선택일 수 있다고 적었다. 즉 커뮤니티는 결과를 흥미롭게 보면서도, baseline이 더 넓어져야 실제 의사결정 도구가 된다고 본다.
그래도 왜 고신호인가
그럼에도 이 포스트가 의미 있는 이유는 열려 있는 산출물과 실무형 지표가 함께 있다는 점이다. repo는 benchmark 코드와 데이터 구조를 공개했고, leaderboard는 반복 실행 기반 reliability를 표면으로 끌어올렸다. 그래서 이 논의는 흔한 “어느 모델이 더 똑똑한가”보다 한 단계 구체적이다. r/MachineLearning의 진짜 반응도 거기에 있었다. 누가 최강인지보다, 문서 AI에서는 비용과 일관성을 훨씬 더 엄격하게 계산해야 하고, 많은 팀이 최신 모델이라는 이유만으로 불필요한 비용을 쓰고 있을지 모른다는 것이다.
출처: ArbitrAI leaderboard · OCR mini-bench repository · Reddit 토론
Related Articles
LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.
IBM Research의 VAKRA는 agent benchmark를 static Q&A에서 실행 가능한 tool environment로 옮겼다. 62 domains, 8,000+ locally hosted APIs, 3-7 step reasoning chains가 들어가며, 결과는 agent reliability가 아직 tool demo 수준을 넘기 어렵다는 쪽에 가깝다.
HN 댓글의 열기는 새 model 이름보다 adaptive thinking, token 변화, safety filter가 실제 개발 흐름을 흔들지에 몰렸다. Opus 4.7은 높은 기대와 동시에 최근 Claude 품질 논쟁의 후폭풍을 맞고 있다.
Comments (0)
No comments yet. Be the first to comment!