DeepSeek V4公開、LocalLLaMAが真っ先に始めたのはRAM計算

最初に始まったのは拍手ではなくRAM計算だった

r/LocalLLaMAでDeepSeek V4の投稿が伸びたのは、単に新モデルが出たからではない。Hugging Faceのcollectionが見えた瞬間から、コミュニティは性能表より先にメモリ計算へ入った。最上位コメントは「マシンを組んだときにRAMを盛らなかったことを、ここまで後悔したことはない」というものだったし、別のコメントは「0.01bit quantが必要だ」と冗談を飛ばした。この反応こそ、open-weight界隈の優先順位をよく表している。

DeepSeekのモデルカードによれば、preview版V4シリーズは2本立てだ。DeepSeek-V4-Proは1.6T total parametersで49B activated、DeepSeek-V4-Flashは284B total parametersで13B activated。どちらも1M tokens contextをサポートする。技術的にはCSA + HCA hybrid attention、mHC、Muon optimizerが強調されている。さらにモデルカードは、1M-context環境でV4-ProがDeepSeek-V3.2比でsingle-token inference FLOPs 27%、KV cache 10%まで圧縮できると説明する。事前学習データ量は32T tokens超とされる。

コミュニティが見ていた焦点

スレッドは大きく二つの方向に割れた。一つはMIT licenseを評価する流れ。もう一つは性能表の読み解きだ。モデルカードではV4-Pro Maxがcodingやagentic評価で強い位置に置かれ、たとえばLiveCodeBench 93.5、Terminal Bench 2.0 67.9、SWE Verified 80.6、MCPAtlas 73.6といった数字が並ぶ。ただし、数字に感心した人たちも同時に「Flashをローカルで回すには、実際どれだけ資金が要るのか」と問い続けていた。つまり、評価軸は性能礼賛だけではなく、配備可能性まで含んでいた。

なぜ重要か

open-weightモデルの競争は、もうleaderboardの序列だけでは語れない。activated parameter数、context長、license、KV cache要求量、そして自前運用の現実性までが一体で見られている。DeepSeek V4のスレッドはその変化をはっきり示した。コミュニティは「すごそうだ」で終わらず、「自分の環境でどこまで行けるのか」を先に問う。その問いに耐えるモデルほど、実際に長く使われる。DeepSeek V4が出したシグナルは明快だ。frontier級の能力を語るなら、性能表だけでなく、長大contextと運用コストの現実まで含めて設計しなければならない。

出典: DeepSeek-V4-Flashモデルカード · r/LocalLLaMAスレッド

DeepSeek V4公開、LocalLLaMAが真っ先に始めたのはRAM計算

最初に始まったのは拍手ではなくRAM計算だった

コミュニティが見ていた焦点

なぜ重要か

Related Articles

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計

Qwen3.6-35B-A3B、HNが見た焦点は3B active MoEのcoding力

Comments (0)

Leave a Comment

Related Articles

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

LocalLLaMAが見たNVIDIA gpt-oss-puzzle-88B、gpt-oss-120bをより安くserveする88B再設計
LLM Reddit Mar 28, 2026 1 min read

Qwen3.6-35B-A3B、HNが見た焦点は3B active MoEのcoding力
LLM Hacker News Apr 16, 2026 1 min read