DeepSeek V4 공개 — 1조 파라미터·100만 토큰 컨텍스트 오픈 웨이트 코딩 모델
설날에 맞춰 공개된 차세대 AI 모델
중국 AI 스타트업 DeepSeek이 2026년 음력 설날인 2월 17일, 새로운 플래그십 모델 DeepSeek V4를 공개했다. 1조 개에 달하는 파라미터, 100만 토큰 컨텍스트 창, 새로운 mHC(Manifold-Constrained Hyper-Connections) 아키텍처를 탑재한 오픈 웨이트 모델로, 코딩 특화 설계가 특징이다.
핵심 기술 혁신
- mHC 아키텍처: Transformer의 구조적 한계를 해결하는 신규 연결 방식으로 학습 안정성 향상
- Engram 조건부 메모리: 장기 컨텍스트를 효율적으로 관리하는 메모리 구조
- Sparse Attention: 추론 비용을 낮추면서 긴 컨텍스트를 처리
- 100만 토큰 컨텍스트: 전체 코드베이스를 단일 패스로 처리 가능
성능 및 비용 경쟁력
DeepSeek 내부 테스트에 따르면 V4는 코딩 벤치마크에서 Claude 3.5 Sonnet과 GPT-4o를 능가하며, SWE-bench에서 80% 이상의 점수를 달성했다고 주장한다. 추론 비용은 서방 경쟁 모델 대비 10~40배 저렴한 것으로 알려졌다.
소비자급 하드웨어에서 실행 가능
오픈 웨이트 형태로 공개된 V4는 NVIDIA RTX 4090 듀얼 또는 단일 RTX 5090에서도 구동 가능하도록 설계됐다. 전 세계 개발자 커뮤니티에서 즉시 다운로드 및 활용이 가능하다.
Related Articles
중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.
DeepSeek가 2026년을 시작하며 Manifold-Constrained Hyper-Connections(mHC) 방법론을 발표했다. 분석가들은 이를 AI 모델 학습 및 스케일링 방식을 근본적으로 변화시킬 수 있는 획기적 돌파구로 평가한다.
Google이 4월 21일 Deep Research를 Gemini 3.1 Pro 기반으로 끌어올리고 MCP 연결과 Max 모드를 붙였다. 웹 검색, 업로드 파일, 라이선스 데이터 소스를 한 흐름에서 묶어야 하는 금융·생명과학 팀을 겨냥한 변화다.
Comments (0)
No comments yet. Be the first to comment!