DeepSeek V4, 이번 주 출시 예고… 1조 매개변수 멀티모달 AI 모델

중국 AI 연구소 DeepSeek이 DeepSeek V4를 이번 주(3월 2~8일) 공개할 예정이라고 TechNode와 파이낸셜 타임스(FT)가 2026년 3월 2일 보도했다. 모델은 2월 중순, 음력 설날, 2월 말 등 여러 차례 출시가 미뤄졌으며, 이번에는 중국의 연례 정치행사 '전국 양회'(3월 4일 시작)에 맞춰 공개 시점을 조율한 것으로 보인다.

V4는 활성 매개변수 약 320억 개의 MoE(전문가 혼합) 아키텍처에 기반하며 총 1조 개의 매개변수를 가진다. 텍스트·이미지·동영상·오디오를 처음부터 통합 학습하는 네이티브 멀티모달 모델로, 최대 100만 토큰의 컨텍스트 윈도우를 지원한다. 유출된 벤치마크에 따르면 HumanEval 약 90%, SWE-bench Verified 80% 이상의 성능이 예상되며, 이는 코딩 작업에서 Claude Opus 4.6 및 GPT-5.3 Codex와 동등한 수준이다(미검증).

특히 DeepSeek은 엔비디아(NVIDIA)와 AMD를 사전 최적화 파이프라인에서 의도적으로 배제하고, 화웨이 Ascend와 Cambricon 칩에 V4 추론 스택을 맞춤 구축했다. 미국의 AI 칩 수출 규제에 대응하는 전략적 행보로 해석된다.

새로운 아키텍처 혁신으로는 대규모 학습 안정화를 위한 Manifold-Constrained Hyper-Connections, 100만 토큰 규모의 효율적 검색을 위한 Engram Conditional Memory, 개선된 Lightning Indexer 기반 스파스 어텐션 3가지가 적용됐다.

자세한 내용은 TechNode에서 확인할 수 있다.