DeepSeek V4 Pro, 프론티어 대비 17배 저렴하면서 GPT-5.2와 성능 동률
Original: DeepSeek V4 Pro matches GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~17x cheaper View original →
FoodTruck Bench란
FoodTruck Bench는 모델이 34개 도구(위치, 가격, 재고, 직원, 날씨, 이벤트)를 통해 30일간 푸드 트럭을 운영하는 에이전트 벤치마크다. 지속적 메모리와 일별 반성이 포함된 실제 에이전트 성능을 평가한다.
결과
DeepSeek V4 Pro는 전체 4위를 기록했다. 순위는 Claude Opus 4.6, GPT-5.2, Grok 4.3에 이어 4번째다. Grok 4.3과는 결과 동점이며, GPT-5.2 중앙값 대비 오차 3% 이내다. 중국 모델 최초로 프론티어 티어에 진입했다는 점이 주목된다.
비용 측면
GPT-5.2 테스트(2월 중순) 이후 10주 만에 동등 성능 달성, 비용은 약 17배 저렴하다. 커뮤니티에서는 클라우드 API 비용 대비 로컬 모델(Qwen3.6 27B 등)로 대체 가능한 작업이 예상보다 훨씬 많다는 실측 데이터도 공유됐다.
시사점
프론티어 성능 격차가 수주~수개월 만에 좁혀지는 반면 가격 차이는 크게 유지되는 패턴이 재확인됐다. DeepSeek의 추격 속도는 프론티어 모델 업체들에 대한 가격 경쟁 압력으로 작용할 전망이다.
Related Articles
AGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.
DeepSeek이 DeepSeek-V4-Pro와 V4-Flash 두 가지 모델을 공개했다. Pro는 1.6조 파라미터(활성 49B)의 Mixture-of-Experts 구조로, 현재까지 공개된 오픈웨이트 모델 중 최대 규모다. 가격은 GPT-5.4와 Gemini 3.1 Pro 대비 절반 이하로, 비용 효율성이 핵심 차별점이다.
OpenAI가 GPT-5.5 Instant를 ChatGPT의 새 기본 모델로 출시했다. 의학·법률·금융 등 고위험 영역에서 환각 오류를 52.5% 줄이고 더 간결하면서 개인화된 응답을 제공한다. Gmail·과거 대화 맥락을 활용하는 개인화 기능이 Plus·Pro 사용자부터 순차 적용된다.
Comments (0)
No comments yet. Be the first to comment!