DeepSeek V4公開、LocalLLaMAが真っ先に始めたのはRAM計算
Original: Deepseek V4 Flash and Non-Flash Out on HuggingFace View original →
最初に始まったのは拍手ではなくRAM計算だった
r/LocalLLaMAでDeepSeek V4の投稿が伸びたのは、単に新モデルが出たからではない。Hugging Faceのcollectionが見えた瞬間から、コミュニティは性能表より先にメモリ計算へ入った。最上位コメントは「マシンを組んだときにRAMを盛らなかったことを、ここまで後悔したことはない」というものだったし、別のコメントは「0.01bit quantが必要だ」と冗談を飛ばした。この反応こそ、open-weight界隈の優先順位をよく表している。
DeepSeekのモデルカードによれば、preview版V4シリーズは2本立てだ。DeepSeek-V4-Proは1.6T total parametersで49B activated、DeepSeek-V4-Flashは284B total parametersで13B activated。どちらも1M tokens contextをサポートする。技術的にはCSA + HCA hybrid attention、mHC、Muon optimizerが強調されている。さらにモデルカードは、1M-context環境でV4-ProがDeepSeek-V3.2比でsingle-token inference FLOPs 27%、KV cache 10%まで圧縮できると説明する。事前学習データ量は32T tokens超とされる。
コミュニティが見ていた焦点
スレッドは大きく二つの方向に割れた。一つはMIT licenseを評価する流れ。もう一つは性能表の読み解きだ。モデルカードではV4-Pro Maxがcodingやagentic評価で強い位置に置かれ、たとえばLiveCodeBench 93.5、Terminal Bench 2.0 67.9、SWE Verified 80.6、MCPAtlas 73.6といった数字が並ぶ。ただし、数字に感心した人たちも同時に「Flashをローカルで回すには、実際どれだけ資金が要るのか」と問い続けていた。つまり、評価軸は性能礼賛だけではなく、配備可能性まで含んでいた。
なぜ重要か
open-weightモデルの競争は、もうleaderboardの序列だけでは語れない。activated parameter数、context長、license、KV cache要求量、そして自前運用の現実性までが一体で見られている。DeepSeek V4のスレッドはその変化をはっきり示した。コミュニティは「すごそうだ」で終わらず、「自分の環境でどこまで行けるのか」を先に問う。その問いに耐えるモデルほど、実際に長く使われる。DeepSeek V4が出したシグナルは明快だ。frontier級の能力を語るなら、性能表だけでなく、長大contextと運用コストの現実まで含めて設計しなければならない。
Related Articles
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。
HNが反応したのはopen weightsの実用面だった。35B MoEでactive parameterが3Bという形が、本当にcoding agentの仕事を支えられるのか。QwenはQwen3.5-35B-A3Bからの改善を示し、コメントはGGUF変換、Macのmemory制約、open modelだけのbenchmark表をどう読むかへ進んだ。
Comments (0)
No comments yet. Be the first to comment!