DeepSeek-V4, 1M context와 1.6T·284B 이중 구조를 공개 가중치로 열었다

이번 글감의 핵심

DeepSeek가 차세대 주력 model을 소문 단계에서 바로 실행 가능한 release로 옮겼다. 공식 계정은 “DeepSeek-V4 Preview is officially live & open-sourced”라고 적었고, 추상적인 성능 수사 대신 구체적인 사양표를 함께 붙였다. 트윗에 따르면 Pro는 총 1.6T, 활성 49B, Flash는 총 284B, 활성 13B 구성이며, 둘 다 1M context length를 전면에 내세운다. open weight 출시에서 가장 자주 빠지는 부분이 실제 운용 단위인데, 이번 글은 그 부분을 숫자로 먼저 보여줬다.

“DeepSeek-V4-Pro: 1.6T total / 49B active params… DeepSeek-V4-Flash: 284B total / 13B active params… API is updated & available today!”

이 계정은 DeepSeek의 1차 release 채널에 가깝기 때문에, 보통 잡음 섞인 의견보다 model rollout 자체를 먼저 올린다. 트윗에 붙은 링크도 중요하다. Hugging Face에 올린 technical report와 open weights collection을 함께 제시해, 이번 post를 단순 홍보 문구가 아니라 바로 검토 가능한 배포 묶음으로 만들었다. chat.deepseek.com을 즉시 체험 경로로 내건 점도 대기 명단보다 실제 사용을 우선한다는 신호다.

왜 이중 구성이 중요한가

진짜 흥미로운 지점은 거대한 총 파라미터 수보다도 두 갈래 제품 구조다. 활성 49B인 Pro는 최상위 품질을 겨냥하고, 활성 13B인 Flash는 더 싼 비용과 더 빠른 추론을 노린다. 거대한 단일 checkpoint 하나를 던지는 방식보다 훨씬 운용 친화적이다. 이는 DeepSeek가 raw benchmark뿐 아니라 serving economics에서도 승부를 걸고 있다는 뜻으로 읽힌다. coding, agent, 문서 검색처럼 긴 context가 기본 요구가 되는 흐름과도 잘 맞는다.

다음 관전점은 외부 벤치마크가 1M context 약속을 실제 workload에서 얼마나 재현하는지, 그리고 새 API 가격이 다른 open·closed 진영을 얼마나 압박하는지다. 이 트윗은 이미 840만 회가 넘는 조회를 모았고, 시장이 teaser보다 구체적인 open release를 기다리고 있었다는 사실도 드러냈다. 출처: DeepSeek source tweet · technical report · open weights collection

DeepSeek-V4, 1M context와 1.6T·284B 이중 구조를 공개 가중치로 열었다

이번 글감의 핵심

왜 이중 구성이 중요한가

Related Articles

LLM 의식 논쟁에 불붙은 'Abstraction Fallacy' 글

GitHub fake stars, HN이 별 숫자보다 본 것은 신뢰 신호의 붕괴

LMSYS, DeepSeek-V4 Day-0 지원에서 H200 266 tok/s 성능을 제시

Comments (0)

Leave a Comment

Related Articles

LLM 의식 논쟁에 불붙은 'Abstraction Fallacy' 글

GitHub fake stars, HN이 별 숫자보다 본 것은 신뢰 신호의 붕괴

LMSYS, DeepSeek-V4 Day-0 지원에서 H200 266 tok/s 성능을 제시