모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유
Original: Deepseek has released DeepEP V2 and TileKernels. View original →
이번엔 모델보다 인프라가 더 크게 먹혔다
LocalLLaMA에서 DeepEP V2와 TileKernels 글이 힘을 받은 건 예쁜 벤치마크 이미지 때문이 아니었다. 커뮤니티가 본 건 MoE 시스템의 진짜 병목에 가까운 작업이었다. expert parallel 통신, 라우팅, 커널 최적화 같은 배관을 더 빠르게 돌릴 수 있느냐는 문제다. 오픈 모델 생태계에서는 이런 인프라 공개가 체감 성능에 바로 이어진다.
DeepEP V2 릴리스 노트를 보면 변화 폭이 작지 않다. expert parallelism을 전면적으로 다시 짰고, high-throughput API와 low-latency API를 하나로 묶었다. NVSHMEM 대신 더 가벼운 NCCL Gin backend로 바뀌었고, scale-up과 scale-out 범위는 EP2048까지 넓혔다. DeepSeek는 V1 대비 최대 1.3배 peak 성능, 최대 4배 적은 SM 사용량을 이야기한다. 여기에 experimental 0 SM Engram, pipeline parallelism, context parallelism all-gather도 붙었다.
TileKernels는 다른 쪽 퍼즐 조각이다. TileLang 기반으로 만든 이 라이브러리는 MoE gating과 routing, quantization, transpose, engram gating, manifold hyperconnection, 그리고 torch autograd 래퍼까지 묶는다. 즉 DeepSeek는 통신 계층만 공개한 게 아니라, LLM 인프라에서 반복적으로 튀어나오는 GPU 연산 블록도 같이 꺼내놓은 셈이다.
- MoE 성능 병목은 이제 가중치보다 routing과 communication 쪽에서 더 자주 드러난다
- SM 사용량을 줄이면 실제 시스템에서 자원 배분 여지가 커진다
- 오픈 인프라는 다른 팀이 바로 시험하고 변형할 수 있다는 점에서 누적 효과가 크다
상위 댓글도 그 감각을 잘 보여줬다. DeepSeek가 연구실처럼 일하면서도 시스템 작업을 밖으로 풀어 goodwill을 쌓고 있다는 반응이 나왔다. 이건 이미지 관리 차원의 칭찬이 아니다. LocalLLaMA에게 DeepEP V2와 TileKernels는 더 빠른 MoE 스택을 만들 수 있는 실물 부품에 가깝다.
Related Articles
LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
DeepSeek가 V4-Pro API의 75% 할인 가격을 상시 요금으로 바꾸며 고성능 LLM API의 가격 압박을 키웠다. 이미지 기준 출력 단가는 100만 토큰당 $3.48에서 $0.87로 내려간다.