DeepSeek V4公開 — 1兆パラメータ・100万トークンコンテキストのオープンウェイトモデル
DeepSeekの最も野心的なリリース
中国AI企業DeepSeekが旧正月の2月17日にDeepSeek V4を公開した。1兆パラメータ、100万トークンコンテキスト、そして3つのアーキテクチャ革新——mHC(Manifold-Constrained Hyper-Connections)、Engramメモリ、Sparse Attention——を搭載したオープンウェイトモデルだ。
技術的ハイライト
- mHCアーキテクチャ: Transformerの根本的な安定性問題を解決し、大規模学習を改善
- Engramメモリ: 長文コンテキストをセッションを超えて効率管理
- Sparse Attention: 推論コストを削減しながら長いコンテキストを処理
- 100万トークン: コードベース全体を1パスで処理可能
ベンチマーク主張
DeepSeek社内ベンチマークによると、V4はコーディングタスクでClaude 3.5 SonnetとGPT-4oを上回り、SWE-benchで80%超のスコアを記録したという。推論コストは欧米の競合フロンティアモデルと比べて10〜40倍低いと主張する。
コンシューマーハードウェアで動作
オープンウェイトとして公開されたV4はNVIDIA RTX 4090デュアル、または単体RTX 5090での動作を想定して設計されており、クラウドインフラなしで最先端のコーディングAIを利用できる。世界中の開発者がすぐにダウンロードして活用可能だ。
Related Articles
中国のAI研究所DeepSeekが今週中にフラッグシップモデルV4をリリースする見込みだ。1兆パラメータのネイティブマルチモーダル構成でHuawei AscendチップをメインにNvidiaとAMDを完全に排除した設計が注目される。
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Comments (0)
No comments yet. Be the first to comment!