DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

Original: DeepSeek v4 View original →

Read in other languages: English日本語
LLM Apr 24, 2026 By Insights AI (HN) 1 min read Source

HN은 이번 DeepSeek V4를 평범한 모델 공개로 받아들이지 않았다. 첫 반응부터 링크가 화려한 출시 페이지가 아니라 업데이트된 API 문서라는 지적이 나왔고, 곧바로 다른 이용자들이 Hugging Face에 올라온 가중치와 base 모델 링크를 붙였다. 그래서 이 스레드의 긴장감은 홍보 문구보다 "실물이 이미 떠 있다"는 감각에서 나왔다.

공식 모델 카드가 왜 반응이 컸는지 바로 설명한다. DeepSeek는 preview 성격의 V4 라인업에 두 개의 Mixture-of-Experts 모델을 넣었다. DeepSeek-V4-Pro는 총 1.6T 파라미터 중 49B가 활성화되고, DeepSeek-V4-Flash는 총 284B 중 13B가 활성화된다. 두 모델 모두 컨텍스트 길이는 1M 토큰이다. 여기에 새 하이브리드 어텐션 구조로 1M 토큰 환경에서 V3.2 대비 single-token inference FLOPs를 27% 수준으로 낮추고, KV cache는 10% 수준까지 줄였다고 밝혔다. 사전학습 데이터도 32T 토큰 이상이다. 공식 정보는 Hugging Face 모델 카드와 기술 보고서에서 확인할 수 있다.

HN 댓글이 붙잡은 지점도 선명하다. 한쪽에서는 "메인 링크가 출시의 핵심을 제대로 보여주지 못한다"며 문서 링크 대신 가중치와 평가표를 먼저 확인했고, 다른 한쪽에서는 V4-Pro-Max가 공개형 진영 최상단에 섰다는 주장 자체를 숫자로 검산했다. DeepSeek가 제시한 표에는 LiveCodeBench 93.5, Terminal Bench 2.0 67.9, Codeforces 3206 같은 수치가 나온다. 커뮤니티가 단순 찬양으로 흐르지 않은 이유도 여기에 있다. 사람들은 발표 문장보다 바로 열어볼 수 있는 artifacts, base 모델, 벤치마크 표를 먼저 봤다.

결국 이 글이 HN에서 커진 이유는 "좋아 보인다"가 아니라 "당장 뜯어볼 수 있다"에 있다. 가중치가 바로 올라왔고, base 모델도 같이 풀렸고, long-context 효율과 agent 지표도 표로 던져졌다. 공개형 LLM 진영이 아직도 이렇게 갑자기 판을 흔들 수 있다는 감각이 남았다. 실제 반응은 Hacker News 스레드에서, 원본 자료는 DeepSeek-V4-Pro 페이지에서 확인할 수 있다.

Share: Long

Related Articles

LLM Reddit Mar 28, 2026 2 min read

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.