DeepSeek V4, 이번 주 출시 예고… 1조 매개변수 멀티모달 AI 모델
중국 AI 연구소 DeepSeek이 DeepSeek V4를 이번 주(3월 2~8일) 공개할 예정이라고 TechNode와 파이낸셜 타임스(FT)가 2026년 3월 2일 보도했다. 모델은 2월 중순, 음력 설날, 2월 말 등 여러 차례 출시가 미뤄졌으며, 이번에는 중국의 연례 정치행사 '전국 양회'(3월 4일 시작)에 맞춰 공개 시점을 조율한 것으로 보인다.
V4는 활성 매개변수 약 320억 개의 MoE(전문가 혼합) 아키텍처에 기반하며 총 1조 개의 매개변수를 가진다. 텍스트·이미지·동영상·오디오를 처음부터 통합 학습하는 네이티브 멀티모달 모델로, 최대 100만 토큰의 컨텍스트 윈도우를 지원한다. 유출된 벤치마크에 따르면 HumanEval 약 90%, SWE-bench Verified 80% 이상의 성능이 예상되며, 이는 코딩 작업에서 Claude Opus 4.6 및 GPT-5.3 Codex와 동등한 수준이다(미검증).
특히 DeepSeek은 엔비디아(NVIDIA)와 AMD를 사전 최적화 파이프라인에서 의도적으로 배제하고, 화웨이 Ascend와 Cambricon 칩에 V4 추론 스택을 맞춤 구축했다. 미국의 AI 칩 수출 규제에 대응하는 전략적 행보로 해석된다.
새로운 아키텍처 혁신으로는 대규모 학습 안정화를 위한 Manifold-Constrained Hyper-Connections, 100만 토큰 규모의 효율적 검색을 위한 Engram Conditional Memory, 개선된 Lightning Indexer 기반 스파스 어텐션 3가지가 적용됐다.
자세한 내용은 TechNode에서 확인할 수 있다.
Related Articles
중국 AI 스타트업 DeepSeek이 음력 설날인 2월 17일 V4를 공개했다. 1조 개 파라미터, 100만 토큰 컨텍스트, mHC 아키텍처를 갖춘 오픈 웨이트 모델로 코딩 벤치마크에서 Claude 3.5 Sonnet·GPT-4o를 능가한다고 주장한다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
Comments (0)
No comments yet. Be the first to comment!