DeepSeek V4 Pro, 프론티어 대비 17배 저렴하면서 GPT-5.2와 성능 동률

FoodTruck Bench란

FoodTruck Bench는 모델이 34개 도구(위치, 가격, 재고, 직원, 날씨, 이벤트)를 통해 30일간 푸드 트럭을 운영하는 에이전트 벤치마크다. 지속적 메모리와 일별 반성이 포함된 실제 에이전트 성능을 평가한다.

결과

DeepSeek V4 Pro는 전체 4위를 기록했다. 순위는 Claude Opus 4.6, GPT-5.2, Grok 4.3에 이어 4번째다. Grok 4.3과는 결과 동점이며, GPT-5.2 중앙값 대비 오차 3% 이내다. 중국 모델 최초로 프론티어 티어에 진입했다는 점이 주목된다.

비용 측면

GPT-5.2 테스트(2월 중순) 이후 10주 만에 동등 성능 달성, 비용은 약 17배 저렴하다. 커뮤니티에서는 클라우드 API 비용 대비 로컬 모델(Qwen3.6 27B 등)로 대체 가능한 작업이 예상보다 훨씬 많다는 실측 데이터도 공유됐다.

시사점

프론티어 성능 격차가 수주~수개월 만에 좁혀지는 반면 가격 차이는 크게 유지되는 패턴이 재확인됐다. DeepSeek의 추격 속도는 프론티어 모델 업체들에 대한 가격 경쟁 압력으로 작용할 전망이다.

LLM Hacker News May 30, 2026 1 min read

Liquid AI, 38조 토큰 학습 MoE 모델 공개

Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.

#liquid-ai #llm #moe

LLM X/Twitter 4d ago 1 min read

1.3M 대화로 GPT-5 계열 출시 전 위험률을 예측한 OpenAI 실험

모델 안전성 검토가 손으로 만든 테스트를 넘어 출시 전 위험률 예측으로 이동하고 있다. OpenAI는 약 130만 건의 비식별 대화를 활용했고, GPT-5 계열에서 중앙값 1.5배 오차를 보고했다.

#openai #deployment-simulation #model-safety

LLM X/Twitter 6d ago 1 min read

Fusion API, Fable 5급 연구 성능을 절반 가격으로 겨냥

OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.

#openrouter #fusion-api #llm

FoodTruck Bench란

결과

비용 측면

시사점

Related Articles

Liquid AI, 38조 토큰 학습 MoE 모델 공개

1.3M 대화로 GPT-5 계열 출시 전 위험률을 예측한 OpenAI 실험

Fusion API, Fable 5급 연구 성능을 절반 가격으로 겨냥