DeepSeek-V4, 1M context와 1.6T·284B 이중 구조를 공개 가중치로 열었다
Original: DeepSeek-V4 Preview is live, open-sourced, and built around 1M context View original →
이번 글감의 핵심
DeepSeek가 차세대 주력 model을 소문 단계에서 바로 실행 가능한 release로 옮겼다. 공식 계정은 “DeepSeek-V4 Preview is officially live & open-sourced”라고 적었고, 추상적인 성능 수사 대신 구체적인 사양표를 함께 붙였다. 트윗에 따르면 Pro는 총 1.6T, 활성 49B, Flash는 총 284B, 활성 13B 구성이며, 둘 다 1M context length를 전면에 내세운다. open weight 출시에서 가장 자주 빠지는 부분이 실제 운용 단위인데, 이번 글은 그 부분을 숫자로 먼저 보여줬다.
“DeepSeek-V4-Pro: 1.6T total / 49B active params… DeepSeek-V4-Flash: 284B total / 13B active params… API is updated & available today!”
이 계정은 DeepSeek의 1차 release 채널에 가깝기 때문에, 보통 잡음 섞인 의견보다 model rollout 자체를 먼저 올린다. 트윗에 붙은 링크도 중요하다. Hugging Face에 올린 technical report와 open weights collection을 함께 제시해, 이번 post를 단순 홍보 문구가 아니라 바로 검토 가능한 배포 묶음으로 만들었다. chat.deepseek.com을 즉시 체험 경로로 내건 점도 대기 명단보다 실제 사용을 우선한다는 신호다.
왜 이중 구성이 중요한가
진짜 흥미로운 지점은 거대한 총 파라미터 수보다도 두 갈래 제품 구조다. 활성 49B인 Pro는 최상위 품질을 겨냥하고, 활성 13B인 Flash는 더 싼 비용과 더 빠른 추론을 노린다. 거대한 단일 checkpoint 하나를 던지는 방식보다 훨씬 운용 친화적이다. 이는 DeepSeek가 raw benchmark뿐 아니라 serving economics에서도 승부를 걸고 있다는 뜻으로 읽힌다. coding, agent, 문서 검색처럼 긴 context가 기본 요구가 되는 흐름과도 잘 맞는다.
다음 관전점은 외부 벤치마크가 1M context 약속을 실제 workload에서 얼마나 재현하는지, 그리고 새 API 가격이 다른 open·closed 진영을 얼마나 압박하는지다. 이 트윗은 이미 840만 회가 넘는 조회를 모았고, 시장이 teaser보다 구체적인 open release를 기다리고 있었다는 사실도 드러냈다. 출처: DeepSeek source tweet · technical report · open weights collection
Related Articles
r/singularity가 뜨겁게 반응한 이유는 권위 있는 연구자가 LLM 의식 가능성을 강하게 낮춰 봤기 때문이 아니라, 그 주장이 곧바로 철학·물리·계산의 정의 싸움으로 번졌기 때문이다. Alexander Lerchner의 글은 computation이 mapmaker에 의존한다고 주장했고, 댓글은 Chinese Room과 consciousness 정의 문제로 맞붙었다.
HN이 이 글에 반응한 이유는 fake stars 자체보다, AI/LLM repo 시대에 “인기”라는 신호가 얼마나 싸게 만들어질 수 있는지였기 때문이다. 댓글들은 star 수 대신 commit, issue, code, 실제 사용자 흔적을 보라고 모였다.
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
Comments (0)
No comments yet. Be the first to comment!