DeepSeek-V4、1M contextと1.6T・284B二層構成をopen weightsで解放
Original: DeepSeek-V4 Preview is live, open-sourced, and built around 1M context View original →
この投稿が動かしたもの
DeepSeekは次の主力modelを、噂や予告ではなくそのまま使えるreleaseとして出した。公式アカウントは “DeepSeek-V4 Preview is officially live & open-sourced” と書き、曖昧な能力表現ではなく具体的な仕様を並べた。投稿によれば、Proは 総計1.6Tでactive 49B、Flashは 総計284Bでactive 13B、そして両方とも 1M context length を前面に出している。open-weight releaseで見えにくい運用単位を、最初から数字で見せた点が大きい。
“DeepSeek-V4-Pro: 1.6T total / 49B active params… DeepSeek-V4-Flash: 284B total / 13B active params… API is updated & available today!”
このアカウントはDeepSeekの一次release channelに近く、雑多な所感よりもmodel rolloutそのものを載せることが多い。添付リンクも重要だ。Hugging Face上のtechnical reportとopen weights collectionを同時に示し、この投稿を単なる宣伝文ではなく、開発者がすぐ確認できる配布パッケージに変えている。さらに chat.deepseek.com を即時の試用先として置いたことで、waitlistより実利用を優先していることも伝わる。
二層構成が示すもの
面白いのは総パラメータの大きさだけではない。active 49BのProは最高品質側、active 13BのFlashは速度とコスト側に寄せた二層構成になっている。巨大な単一checkpointを出すより、現実のdeploymentにとってはこのほうが扱いやすい。DeepSeekはbenchmarkの見栄えだけでなく、serving economicsでも勝ち筋を作ろうとしているように見える。coding、agent、文書処理で長いcontextが標準化しつつある流れとも噛み合う。
次に見るべきなのは、独立ベンチマークが1M contextの主張を現実のworkloadで再現できるか、そして更新されたAPI pricingが他社のopen・closedモデルにどこまで圧力をかけるかだ。この投稿はすでに840万回超のviewを集めており、市場が曖昧なteaserではなく具体的なopen releaseを待っていたことも示した。出典: DeepSeek source tweet · technical report · open weights collection
Related Articles
r/singularityが反応した理由は、LLMの意識を否定する強い主張そのものだけではない。Alexander Lerchnerの「Abstraction Fallacy」はcomputationがmapmakerに依存すると論じ、コメント欄では定義、Chinese Room、哲学と神経科学の境界をめぐる議論が一気に広がった。
個人情報フィルタリングはAI開発の周辺機能ではなく本体になった。OpenAIの1.5BオープンウェイトPrivacy Filterは128,000トークンを端末内で処理し、補正版PII-Masking-300kでF1 97.43%を示した。
HNが反応した理由は、fake starsが単なるplatform spamではなく、AI/LLM repoの信用の見え方を歪めるからだった。threadはstar数よりcommit、issue、code、実利用の痕跡を見るべきだという実務的な方向へまとまった。
Comments (0)
No comments yet. Be the first to comment!