DeepSeek V4 공개 — 1조 파라미터·100만 토큰 컨텍스트 오픈 웨이트 코딩 모델
설날에 맞춰 공개된 차세대 AI 모델
중국 AI 스타트업 DeepSeek이 2026년 음력 설날인 2월 17일, 새로운 플래그십 모델 DeepSeek V4를 공개했다. 1조 개에 달하는 파라미터, 100만 토큰 컨텍스트 창, 새로운 mHC(Manifold-Constrained Hyper-Connections) 아키텍처를 탑재한 오픈 웨이트 모델로, 코딩 특화 설계가 특징이다.
핵심 기술 혁신
- mHC 아키텍처: Transformer의 구조적 한계를 해결하는 신규 연결 방식으로 학습 안정성 향상
- Engram 조건부 메모리: 장기 컨텍스트를 효율적으로 관리하는 메모리 구조
- Sparse Attention: 추론 비용을 낮추면서 긴 컨텍스트를 처리
- 100만 토큰 컨텍스트: 전체 코드베이스를 단일 패스로 처리 가능
성능 및 비용 경쟁력
DeepSeek 내부 테스트에 따르면 V4는 코딩 벤치마크에서 Claude 3.5 Sonnet과 GPT-4o를 능가하며, SWE-bench에서 80% 이상의 점수를 달성했다고 주장한다. 추론 비용은 서방 경쟁 모델 대비 10~40배 저렴한 것으로 알려졌다.
소비자급 하드웨어에서 실행 가능
오픈 웨이트 형태로 공개된 V4는 NVIDIA RTX 4090 듀얼 또는 단일 RTX 5090에서도 구동 가능하도록 설계됐다. 전 세계 개발자 커뮤니티에서 즉시 다운로드 및 활용이 가능하다.
Related Articles
중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!