DeepSeek V4 Pro, 프론티어 대비 17배 저렴하면서 GPT-5.2와 성능 동률

Original: DeepSeek V4 Pro matches GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~17x cheaper View original →

Read in other languages: English日本語
LLM May 5, 2026 By Insights AI (Reddit) 1 min read Source

FoodTruck Bench란

FoodTruck Bench는 모델이 34개 도구(위치, 가격, 재고, 직원, 날씨, 이벤트)를 통해 30일간 푸드 트럭을 운영하는 에이전트 벤치마크다. 지속적 메모리와 일별 반성이 포함된 실제 에이전트 성능을 평가한다.

결과

DeepSeek V4 Pro는 전체 4위를 기록했다. 순위는 Claude Opus 4.6, GPT-5.2, Grok 4.3에 이어 4번째다. Grok 4.3과는 결과 동점이며, GPT-5.2 중앙값 대비 오차 3% 이내다. 중국 모델 최초로 프론티어 티어에 진입했다는 점이 주목된다.

비용 측면

GPT-5.2 테스트(2월 중순) 이후 10주 만에 동등 성능 달성, 비용은 약 17배 저렴하다. 커뮤니티에서는 클라우드 API 비용 대비 로컬 모델(Qwen3.6 27B 등)로 대체 가능한 작업이 예상보다 훨씬 많다는 실측 데이터도 공유됐다.

시사점

프론티어 성능 격차가 수주~수개월 만에 좁혀지는 반면 가격 차이는 크게 유지되는 패턴이 재확인됐다. DeepSeek의 추격 속도는 프론티어 모델 업체들에 대한 가격 경쟁 압력으로 작용할 전망이다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment