DeepSeek-V4、1M contextと1.6T・284B二層構成をopen weightsで解放
Original: DeepSeek-V4 Preview is live, open-sourced, and built around 1M context View original →
この投稿が動かしたもの
DeepSeekは次の主力modelを、噂や予告ではなくそのまま使えるreleaseとして出した。公式アカウントは “DeepSeek-V4 Preview is officially live & open-sourced” と書き、曖昧な能力表現ではなく具体的な仕様を並べた。投稿によれば、Proは 総計1.6Tでactive 49B、Flashは 総計284Bでactive 13B、そして両方とも 1M context length を前面に出している。open-weight releaseで見えにくい運用単位を、最初から数字で見せた点が大きい。
“DeepSeek-V4-Pro: 1.6T total / 49B active params… DeepSeek-V4-Flash: 284B total / 13B active params… API is updated & available today!”
このアカウントはDeepSeekの一次release channelに近く、雑多な所感よりもmodel rolloutそのものを載せることが多い。添付リンクも重要だ。Hugging Face上のtechnical reportとopen weights collectionを同時に示し、この投稿を単なる宣伝文ではなく、開発者がすぐ確認できる配布パッケージに変えている。さらに chat.deepseek.com を即時の試用先として置いたことで、waitlistより実利用を優先していることも伝わる。
二層構成が示すもの
面白いのは総パラメータの大きさだけではない。active 49BのProは最高品質側、active 13BのFlashは速度とコスト側に寄せた二層構成になっている。巨大な単一checkpointを出すより、現実のdeploymentにとってはこのほうが扱いやすい。DeepSeekはbenchmarkの見栄えだけでなく、serving economicsでも勝ち筋を作ろうとしているように見える。coding、agent、文書処理で長いcontextが標準化しつつある流れとも噛み合う。
次に見るべきなのは、独立ベンチマークが1M contextの主張を現実のworkloadで再現できるか、そして更新されたAPI pricingが他社のopen・closedモデルにどこまで圧力をかけるかだ。この投稿はすでに840万回超のviewを集めており、市場が曖昧なteaserではなく具体的なopen releaseを待っていたことも示した。出典: DeepSeek source tweet · technical report · open weights collection
Related Articles
Bloomberg報道によると、DeepSeekは102億9000万ドルの資金調達ラウンドを推進中です。創業者の梁文峰氏はオープンソースAI開発とAGI目標への継続的な取り組みを公式に表明しました。
ByteDance Researchが、画像・動画の生成・編集・理解を単一モデルで処理するLance(3Bパラメータ)をApache 2.0ライセンスで公開した。主要ベンチマークでは7B以上のモデルに匹敵する性能を発揮している。
アンドレイ・カルパシーがLLMにHTML形式で回答を構造化するよう指示しブラウザで開くという実践的なヒントを共有。テキストからマークダウン、HTML、インタラクティブな神経シミュレーションへと進化する人間とAIのインターフェースの将来像も提示した。