DeepSeek-V4, 1M context와 1.6T·284B 이중 구조를 공개 가중치로 열었다
Original: DeepSeek-V4 Preview is live, open-sourced, and built around 1M context View original →
이번 글감의 핵심
DeepSeek가 차세대 주력 model을 소문 단계에서 바로 실행 가능한 release로 옮겼다. 공식 계정은 “DeepSeek-V4 Preview is officially live & open-sourced”라고 적었고, 추상적인 성능 수사 대신 구체적인 사양표를 함께 붙였다. 트윗에 따르면 Pro는 총 1.6T, 활성 49B, Flash는 총 284B, 활성 13B 구성이며, 둘 다 1M context length를 전면에 내세운다. open weight 출시에서 가장 자주 빠지는 부분이 실제 운용 단위인데, 이번 글은 그 부분을 숫자로 먼저 보여줬다.
“DeepSeek-V4-Pro: 1.6T total / 49B active params… DeepSeek-V4-Flash: 284B total / 13B active params… API is updated & available today!”
이 계정은 DeepSeek의 1차 release 채널에 가깝기 때문에, 보통 잡음 섞인 의견보다 model rollout 자체를 먼저 올린다. 트윗에 붙은 링크도 중요하다. Hugging Face에 올린 technical report와 open weights collection을 함께 제시해, 이번 post를 단순 홍보 문구가 아니라 바로 검토 가능한 배포 묶음으로 만들었다. chat.deepseek.com을 즉시 체험 경로로 내건 점도 대기 명단보다 실제 사용을 우선한다는 신호다.
왜 이중 구성이 중요한가
진짜 흥미로운 지점은 거대한 총 파라미터 수보다도 두 갈래 제품 구조다. 활성 49B인 Pro는 최상위 품질을 겨냥하고, 활성 13B인 Flash는 더 싼 비용과 더 빠른 추론을 노린다. 거대한 단일 checkpoint 하나를 던지는 방식보다 훨씬 운용 친화적이다. 이는 DeepSeek가 raw benchmark뿐 아니라 serving economics에서도 승부를 걸고 있다는 뜻으로 읽힌다. coding, agent, 문서 검색처럼 긴 context가 기본 요구가 되는 흐름과도 잘 맞는다.
다음 관전점은 외부 벤치마크가 1M context 약속을 실제 workload에서 얼마나 재현하는지, 그리고 새 API 가격이 다른 open·closed 진영을 얼마나 압박하는지다. 이 트윗은 이미 840만 회가 넘는 조회를 모았고, 시장이 teaser보다 구체적인 open release를 기다리고 있었다는 사실도 드러냈다. 출처: DeepSeek source tweet · technical report · open weights collection
Related Articles
ByteDance Research가 이미지·영상 생성과 이해를 단일 모델로 처리하는 Lance(3B 파라미터)를 Apache 2.0 라이선스로 오픈소스 공개했다. 주요 벤치마크에서 7B 이상 모델에 맞먹는 성능을 기록했다.
Bloomberg에 따르면 DeepSeek이 102억 9천만 달러 규모의 투자 유치를 추진 중입니다. 창업자 량원펑은 단기 수익화보다 오픈소스 AI 개발과 AGI 목표를 계속 추구하겠다는 의지를 공개적으로 밝혔습니다.
NVIDIA 연구팀이 최대 1분 길이의 720p 해상도 영상을 생성할 수 있는 2.6B 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 상대적으로 작은 모델 크기와 오픈소스 공개가 특징이다.