DeepSeek、今週V4リリースへ——1兆パラメータのマルチモーダルモデル、Huaweiチップに最適化
中国のAI研究所DeepSeekが、TechNodeとフィナンシャル・タイムズが2026年3月2日に報じた情報によると、今週中にDeepSeek V4をリリースする計画だ。2月中旬、旧正月、2月末と複数回先延ばしになっていたが、3月4日に始まる中国の年次政治行事「全国人民代表大会(両会)」に合わせてリリースタイミングを調整しているとみられる。
V4はMixture-of-Experts(MoE)アーキテクチャを採用し、アクティブパラメータ約320億、総パラメータ1兆という規模を持つ。テキスト・画像・動画・音声を最初から統合して学習したネイティブマルチモーダルモデルで、最大100万トークンのコンテキストウィンドウをサポートする。リークされたベンチマークによれば、HumanEvalで約90%、SWE-Bench Verifiedで80%以上のスコアが期待され、コーディングタスクではClaude Opus 4.6やGPT-5.3 Codexと同等のパフォーマンスとされる(未検証)。
注目すべき戦略的決定として、DeepSeekはNvidiaとAMDをプレリリース最適化パイプラインから意図的に排除し、V4の推論スタックをHuawei AscendとCambricon専用に構築した。米国の半導体輸出規制に対する戦略的対応として、中国国産AIハードウェアへの依存強化を鮮明にした格好だ。
新アーキテクチャの革新として、Manifold-Constrained Hyper-Connections(大規模学習の安定化)、Engram Conditional Memory(100万トークン規模の効率的検索)、改良型Lightning Indexerによるスパースアテンションの3つが挙げられている。
詳細はTechNodeを参照。
Related Articles
中国AI企業DeepSeekが旧正月の2月17日にV4を公開。1兆パラメータ、100万トークンコンテキスト、mHCアーキテクチャを備えたオープンウェイトモデルで、コーディングベンチマークでClaude 3.5 SonnetやGPT-4oを超えると主張する。
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Microsoft Researchは2026年2月26日にCORPGENを発表した。実際のオフィス業務を模した高負荷マルチタスク条件で、ベースライン比最大3.5倍の完了率を報告している。
Comments (0)
No comments yet. Be the first to comment!