DeepSeek V4公開 — 1兆パラメータ・100万トークンコンテキストのオープンウェイトモデル

DeepSeekの最も野心的なリリース

中国AI企業DeepSeekが旧正月の2月17日にDeepSeek V4を公開した。1兆パラメータ、100万トークンコンテキスト、そして3つのアーキテクチャ革新——mHC（Manifold-Constrained Hyper-Connections）、Engramメモリ、Sparse Attention——を搭載したオープンウェイトモデルだ。

技術的ハイライト

mHCアーキテクチャ: Transformerの根本的な安定性問題を解決し、大規模学習を改善
Engramメモリ: 長文コンテキストをセッションを超えて効率管理
Sparse Attention: 推論コストを削減しながら長いコンテキストを処理
100万トークン: コードベース全体を1パスで処理可能

ベンチマーク主張

DeepSeek社内ベンチマークによると、V4はコーディングタスクでClaude 3.5 SonnetとGPT-4oを上回り、SWE-benchで80%超のスコアを記録したという。推論コストは欧米の競合フロンティアモデルと比べて10〜40倍低いと主張する。

コンシューマーハードウェアで動作

オープンウェイトとして公開されたV4はNVIDIA RTX 4090デュアル、または単体RTX 5090での動作を想定して設計されており、クラウドインフラなしで最先端のコーディングAIを利用できる。世界中の開発者がすぐにダウンロードして活用可能だ。

Source: Introl, Vertu

LLM Mar 3, 2026 1 min read

DeepSeek、今週V4リリースへ——1兆パラメータのマルチモーダルモデル、Huaweiチップに最適化

中国のAI研究所DeepSeekが今週中にフラッグシップモデルV4をリリースする見込みだ。1兆パラメータのネイティブマルチモーダル構成でHuawei AscendチップをメインにNvidiaとAMDを完全に排除した設計が注目される。

#open-source #research #benchmark

LLM X/Twitter 8h ago 1 min read

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ

Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。

#anthropic #claude #benchmark

LLM Hacker News 1d ago 1 min read

FrontierCode、AIコード評価を「mergeできるPRか」へ寄せる新ベンチマーク

HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。

#coding-agents #benchmark #evals