DeepSeek V4でHN騒然、API docsより先に広がった重み公開
Original: DeepSeek v4 View original →
HNは今回のDeepSeek V4を普通のモデル公開として消化しなかった。最初の反応から、表に出ていたリンクは派手なローンチページではなく更新済みのAPI docsだという指摘が出て、その直後に別の利用者がHugging Face上の重みとbaseモデルへのリンクを貼った。だからこのスレッドの熱量は宣伝文句ではなく、もう実物が触れる場所に出ているという事実から生まれた。
公式モデルカードを見ると、その反応の理由が分かる。DeepSeekはpreview版のV4シリーズとして、DeepSeek-V4-ProとDeepSeek-V4-Flashという二つのMoEモデルを公開した。V4-Proは総パラメータ1.6Tで49B activated、V4-Flashは総284Bで13B activated、どちらも1Mトークンの長文脈をサポートする。さらに新しいhybrid attentionにより、1Mトークン設定でV3.2比27%のsingle-token inference FLOPs、10%のKV cacheで動くと説明している。事前学習も32Tトークン超だ。詳細は Hugging Faceのモデルカード と技術レポートにまとまっている。
HNの議論は仕組みと実用性に集中した。ある流れでは、トップページのリンクがローンチの実態を十分に示していないとして、利用者たちが重み、base variant、評価表を先に確認した。別の流れでは、V4-Pro-Maxが公開モデル最上位だという主張を、そのままベンチマーク表で突き合わせていた。DeepSeekの表にはLiveCodeBench 93.5、Terminal Bench 2.0 67.9、Codeforces 3206のような数字が並ぶ。HNらしかったのは、熱狂しても資料はすぐ検算するところだ。
この話が強かったのは、すごそうだからではなく、すぐ監査できたからだ。重みが出て、baseモデルもあり、long-contextの効率改善とagent指標も同時に見えた。公開LLMの世界がまだ唐突に空気を変えられると感じさせた点が大きい。反応そのものは Hacker Newsスレッド で、原典は DeepSeek-V4-Proページ で追える。
Related Articles
LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。
HNはKimi K2.6を、benchmark表よりも「open-weight coding agentが長い実務を耐えられるか」という問いで読んだ。12時間、13時間のcoding事例が注目を集める一方、速度、provider品質、benchmarkの現実味もすぐに問われた。
LocalLLaMAでQwen3.5-35B-A3Bのモデルカード共有が急拡大した。MoE構成、長いcontext、主要推論スタック対応が実運用観点で注目されている。
Comments (0)
No comments yet. Be the first to comment!