DeepSeek、今週V4リリースへ——1兆パラメータのマルチモーダルモデル、Huaweiチップに最適化
中国のAI研究所DeepSeekが、TechNodeとフィナンシャル・タイムズが2026年3月2日に報じた情報によると、今週中にDeepSeek V4をリリースする計画だ。2月中旬、旧正月、2月末と複数回先延ばしになっていたが、3月4日に始まる中国の年次政治行事「全国人民代表大会(両会)」に合わせてリリースタイミングを調整しているとみられる。
V4はMixture-of-Experts(MoE)アーキテクチャを採用し、アクティブパラメータ約320億、総パラメータ1兆という規模を持つ。テキスト・画像・動画・音声を最初から統合して学習したネイティブマルチモーダルモデルで、最大100万トークンのコンテキストウィンドウをサポートする。リークされたベンチマークによれば、HumanEvalで約90%、SWE-Bench Verifiedで80%以上のスコアが期待され、コーディングタスクではClaude Opus 4.6やGPT-5.3 Codexと同等のパフォーマンスとされる(未検証)。
注目すべき戦略的決定として、DeepSeekはNvidiaとAMDをプレリリース最適化パイプラインから意図的に排除し、V4の推論スタックをHuawei AscendとCambricon専用に構築した。米国の半導体輸出規制に対する戦略的対応として、中国国産AIハードウェアへの依存強化を鮮明にした格好だ。
新アーキテクチャの革新として、Manifold-Constrained Hyper-Connections(大規模学習の安定化)、Engram Conditional Memory(100万トークン規模の効率的検索)、改良型Lightning Indexerによるスパースアテンションの3つが挙げられている。
詳細はTechNodeを参照。
Related Articles
中国AI企業DeepSeekが旧正月の2月17日にV4を公開。1兆パラメータ、100万トークンコンテキスト、mHCアーキテクチャを備えたオープンウェイトモデルで、コーディングベンチマークでClaude 3.5 SonnetやGPT-4oを超えると主張する。
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Comments (0)
No comments yet. Be the first to comment!