DeepSeek V4, 이번 주 출시 예고… 1조 매개변수 멀티모달 AI 모델
중국 AI 연구소 DeepSeek이 DeepSeek V4를 이번 주(3월 2~8일) 공개할 예정이라고 TechNode와 파이낸셜 타임스(FT)가 2026년 3월 2일 보도했다. 모델은 2월 중순, 음력 설날, 2월 말 등 여러 차례 출시가 미뤄졌으며, 이번에는 중국의 연례 정치행사 '전국 양회'(3월 4일 시작)에 맞춰 공개 시점을 조율한 것으로 보인다.
V4는 활성 매개변수 약 320억 개의 MoE(전문가 혼합) 아키텍처에 기반하며 총 1조 개의 매개변수를 가진다. 텍스트·이미지·동영상·오디오를 처음부터 통합 학습하는 네이티브 멀티모달 모델로, 최대 100만 토큰의 컨텍스트 윈도우를 지원한다. 유출된 벤치마크에 따르면 HumanEval 약 90%, SWE-bench Verified 80% 이상의 성능이 예상되며, 이는 코딩 작업에서 Claude Opus 4.6 및 GPT-5.3 Codex와 동등한 수준이다(미검증).
특히 DeepSeek은 엔비디아(NVIDIA)와 AMD를 사전 최적화 파이프라인에서 의도적으로 배제하고, 화웨이 Ascend와 Cambricon 칩에 V4 추론 스택을 맞춤 구축했다. 미국의 AI 칩 수출 규제에 대응하는 전략적 행보로 해석된다.
새로운 아키텍처 혁신으로는 대규모 학습 안정화를 위한 Manifold-Constrained Hyper-Connections, 100만 토큰 규모의 효율적 검색을 위한 Engram Conditional Memory, 개선된 Lightning Indexer 기반 스파스 어텐션 3가지가 적용됐다.
자세한 내용은 TechNode에서 확인할 수 있다.
Related Articles
중국 AI 스타트업 DeepSeek이 음력 설날인 2월 17일 V4를 공개했다. 1조 개 파라미터, 100만 토큰 컨텍스트, mHC 아키텍처를 갖춘 오픈 웨이트 모델로 코딩 벤치마크에서 Claude 3.5 Sonnet·GPT-4o를 능가한다고 주장한다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!