DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

HN은 이번 DeepSeek V4를 평범한 모델 공개로 받아들이지 않았다. 첫 반응부터 링크가 화려한 출시 페이지가 아니라 업데이트된 API 문서라는 지적이 나왔고, 곧바로 다른 이용자들이 Hugging Face에 올라온 가중치와 base 모델 링크를 붙였다. 그래서 이 스레드의 긴장감은 홍보 문구보다 "실물이 이미 떠 있다"는 감각에서 나왔다.

공식 모델 카드가 왜 반응이 컸는지 바로 설명한다. DeepSeek는 preview 성격의 V4 라인업에 두 개의 Mixture-of-Experts 모델을 넣었다. DeepSeek-V4-Pro는 총 1.6T 파라미터 중 49B가 활성화되고, DeepSeek-V4-Flash는 총 284B 중 13B가 활성화된다. 두 모델 모두 컨텍스트 길이는 1M 토큰이다. 여기에 새 하이브리드 어텐션 구조로 1M 토큰 환경에서 V3.2 대비 single-token inference FLOPs를 27% 수준으로 낮추고, KV cache는 10% 수준까지 줄였다고 밝혔다. 사전학습 데이터도 32T 토큰 이상이다. 공식 정보는 Hugging Face 모델 카드와 기술 보고서에서 확인할 수 있다.

HN 댓글이 붙잡은 지점도 선명하다. 한쪽에서는 "메인 링크가 출시의 핵심을 제대로 보여주지 못한다"며 문서 링크 대신 가중치와 평가표를 먼저 확인했고, 다른 한쪽에서는 V4-Pro-Max가 공개형 진영 최상단에 섰다는 주장 자체를 숫자로 검산했다. DeepSeek가 제시한 표에는 LiveCodeBench 93.5, Terminal Bench 2.0 67.9, Codeforces 3206 같은 수치가 나온다. 커뮤니티가 단순 찬양으로 흐르지 않은 이유도 여기에 있다. 사람들은 발표 문장보다 바로 열어볼 수 있는 artifacts, base 모델, 벤치마크 표를 먼저 봤다.

결국 이 글이 HN에서 커진 이유는 "좋아 보인다"가 아니라 "당장 뜯어볼 수 있다"에 있다. 가중치가 바로 올라왔고, base 모델도 같이 풀렸고, long-context 효율과 agent 지표도 표로 던져졌다. 공개형 LLM 진영이 아직도 이렇게 갑자기 판을 흔들 수 있다는 감각이 남았다. 실제 반응은 Hacker News 스레드에서, 원본 자료는 DeepSeek-V4-Pro 페이지에서 확인할 수 있다.

DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

Related Articles

Kimi K2.6, HN이 본 핵심은 open weights coding agent의 지속력

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계

Comments (0)

Leave a Comment

Related Articles

Kimi K2.6, HN이 본 핵심은 open weights coding agent의 지속력

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계
LLM Reddit Mar 28, 2026 2 min read