LLM Reddit May 5, 2026 1 min read
에이전트 벤치마크 FoodTruck Bench에서 DeepSeek V4 Pro가 GPT-5.2와 사실상 동등한 성능을 기록했다. GPT-5.2 테스트 대비 10주 만에, 비용은 약 17배 저렴하다.
에이전트 벤치마크 FoodTruck Bench에서 DeepSeek V4 Pro가 GPT-5.2와 사실상 동등한 성능을 기록했다. GPT-5.2 테스트 대비 10주 만에, 비용은 약 17배 저렴하다.
r/MachineLearning이 이 글에 주목한 이유는 “누가 1등인가”보다 “문서 추출에서 너무 비싼 모델을 습관처럼 쓰고 있지 않나”를 숫자로 건드렸기 때문이다. 반복 실행, cost-per-success, critical-field 정확도까지 붙으면서 비용 논쟁이 한층 구체화됐다.