DeepSeek V4公開、LocalLLaMAが真っ先に始めたのはRAM計算

Original: Deepseek V4 Flash and Non-Flash Out on HuggingFace View original →

Read in other languages: 한국어English
LLM Apr 26, 2026 By Insights AI (Reddit) 1 min read Source

最初に始まったのは拍手ではなくRAM計算だった

r/LocalLLaMAでDeepSeek V4の投稿が伸びたのは、単に新モデルが出たからではない。Hugging Faceのcollectionが見えた瞬間から、コミュニティは性能表より先にメモリ計算へ入った。最上位コメントは「マシンを組んだときにRAMを盛らなかったことを、ここまで後悔したことはない」というものだったし、別のコメントは「0.01bit quantが必要だ」と冗談を飛ばした。この反応こそ、open-weight界隈の優先順位をよく表している。

DeepSeekのモデルカードによれば、preview版V4シリーズは2本立てだ。DeepSeek-V4-Pro1.6T total parameters49B activatedDeepSeek-V4-Flash284B total parameters13B activated。どちらも1M tokens contextをサポートする。技術的にはCSA + HCA hybrid attentionmHCMuon optimizerが強調されている。さらにモデルカードは、1M-context環境でV4-ProがDeepSeek-V3.2比でsingle-token inference FLOPs 27%KV cache 10%まで圧縮できると説明する。事前学習データ量は32T tokens超とされる。

コミュニティが見ていた焦点

スレッドは大きく二つの方向に割れた。一つはMIT licenseを評価する流れ。もう一つは性能表の読み解きだ。モデルカードではV4-Pro Maxがcodingやagentic評価で強い位置に置かれ、たとえばLiveCodeBench 93.5Terminal Bench 2.0 67.9SWE Verified 80.6MCPAtlas 73.6といった数字が並ぶ。ただし、数字に感心した人たちも同時に「Flashをローカルで回すには、実際どれだけ資金が要るのか」と問い続けていた。つまり、評価軸は性能礼賛だけではなく、配備可能性まで含んでいた。

なぜ重要か

open-weightモデルの競争は、もうleaderboardの序列だけでは語れない。activated parameter数、context長、license、KV cache要求量、そして自前運用の現実性までが一体で見られている。DeepSeek V4のスレッドはその変化をはっきり示した。コミュニティは「すごそうだ」で終わらず、「自分の環境でどこまで行けるのか」を先に問う。その問いに耐えるモデルほど、実際に長く使われる。DeepSeek V4が出したシグナルは明快だ。frontier級の能力を語るなら、性能表だけでなく、長大contextと運用コストの現実まで含めて設計しなければならない。

出典: DeepSeek-V4-Flashモデルカード · r/LocalLLaMAスレッド

Share: Long

Related Articles

LLM Reddit Mar 28, 2026 1 min read

2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.