DeepSeek V4 등장, LocalLLaMA가 먼저 계산한 건 메모리

Original: Deepseek V4 Flash and Non-Flash Out on HuggingFace View original →

Read in other languages: English日本語
LLM Apr 26, 2026 By Insights AI (Reddit) 1 min read Source

모델 공개보다 먼저 시작된 건 RAM 계산

r/LocalLLaMA에서 DeepSeek V4 글이 크게 오른 이유는 단순한 “신모델 출시”가 아니었다. Hugging Face에 컬렉션이 열리자마자 커뮤니티는 성능보다 먼저 하드웨어 수지타산으로 들어갔다. top comment부터 “머신 조립할 때 RAM을 더 안 넣은 게 이렇게 후회된 적이 없다”는 반응이 붙었고, 다른 댓글은 농담처럼 “이제 0.01bit quant가 필요하다”고 받았다. 이 분위기 자체가 오픈웨이트 시장의 현재를 잘 보여준다.

DeepSeek 모델 카드에 따르면 이번 preview 계열은 두 갈래다. DeepSeek-V4-Pro1.6T parameters49B activated, DeepSeek-V4-Flash284B parameters13B activated 구조이며, 둘 다 1M tokens context를 지원한다. 아키텍처 쪽 핵심 업그레이드는 CSA + HCA hybrid attention, mHC, Muon optimizer다. 모델 카드는 특히 1M context에서 V4-Pro가 DeepSeek-V3.2 대비 single-token inference FLOPs 27%, KV cache 10% 수준만 요구한다고 설명한다. 사전학습 규모는 32T tokens 이상으로 적혀 있다.

커뮤니티가 꽂힌 포인트

LocalLLaMA는 숫자만 보고 끝내지 않았다. 한쪽에서는 MIT license를 반겼고, 다른 쪽에서는 coding·agentic benchmark 표를 끌어와 성능 위치를 따졌다. 모델 카드에 따르면 V4-Pro Max는 LiveCodeBench 93.5, Terminal Bench 2.0 67.9, SWE Verified 80.6, MCPAtlas 73.6 같은 수치를 제시한다. 하지만 스레드의 정서는 “와, 이게 frontier랑 붙네”에서 끝나지 않았다. “Flash를 로컬에서 돌리려면 대체 얼마나 부자여야 하냐”는 반응이 동시에 올라온다. 즉, 성능 호평과 배치 비용 계산이 한 문장 안에서 같이 움직였다.

왜 중요한가

오픈 모델 경쟁은 이제 leaderboard 숫자만으로는 설명이 안 된다. activated parameter 수, context window, license, KV cache 요구량, 실제 self-host 가능성이 함께 평가된다. DeepSeek V4 스레드가 보여준 것도 그것이다. 커뮤니티는 단순히 “좋아 보인다”가 아니라 “내 장비로 어디까지 가능하냐”를 먼저 묻는다. 그 질문을 버티는 모델이 오픈웨이트 생태계에서 오래 남는다. DeepSeek V4가 던진 신호는 분명하다. frontier급 ambitions를 말하려면 성능표뿐 아니라, 긴 context와 배치 현실까지 같이 설계해야 한다.

출처: DeepSeek-V4-Flash 모델 카드 · r/LocalLLaMA 스레드

Share: Long

Related Articles

LLM Hacker News Apr 16, 2026 1 min read

HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.

LLM Reddit Mar 28, 2026 2 min read

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.