모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유
Original: Deepseek has released DeepEP V2 and TileKernels. View original →
이번엔 모델보다 인프라가 더 크게 먹혔다
LocalLLaMA에서 DeepEP V2와 TileKernels 글이 힘을 받은 건 예쁜 벤치마크 이미지 때문이 아니었다. 커뮤니티가 본 건 MoE 시스템의 진짜 병목에 가까운 작업이었다. expert parallel 통신, 라우팅, 커널 최적화 같은 배관을 더 빠르게 돌릴 수 있느냐는 문제다. 오픈 모델 생태계에서는 이런 인프라 공개가 체감 성능에 바로 이어진다.
DeepEP V2 릴리스 노트를 보면 변화 폭이 작지 않다. expert parallelism을 전면적으로 다시 짰고, high-throughput API와 low-latency API를 하나로 묶었다. NVSHMEM 대신 더 가벼운 NCCL Gin backend로 바뀌었고, scale-up과 scale-out 범위는 EP2048까지 넓혔다. DeepSeek는 V1 대비 최대 1.3배 peak 성능, 최대 4배 적은 SM 사용량을 이야기한다. 여기에 experimental 0 SM Engram, pipeline parallelism, context parallelism all-gather도 붙었다.
TileKernels는 다른 쪽 퍼즐 조각이다. TileLang 기반으로 만든 이 라이브러리는 MoE gating과 routing, quantization, transpose, engram gating, manifold hyperconnection, 그리고 torch autograd 래퍼까지 묶는다. 즉 DeepSeek는 통신 계층만 공개한 게 아니라, LLM 인프라에서 반복적으로 튀어나오는 GPU 연산 블록도 같이 꺼내놓은 셈이다.
- MoE 성능 병목은 이제 가중치보다 routing과 communication 쪽에서 더 자주 드러난다
- SM 사용량을 줄이면 실제 시스템에서 자원 배분 여지가 커진다
- 오픈 인프라는 다른 팀이 바로 시험하고 변형할 수 있다는 점에서 누적 효과가 크다
상위 댓글도 그 감각을 잘 보여줬다. DeepSeek가 연구실처럼 일하면서도 시스템 작업을 밖으로 풀어 goodwill을 쌓고 있다는 반응이 나왔다. 이건 이미지 관리 차원의 칭찬이 아니다. LocalLLaMA에게 DeepEP V2와 TileKernels는 더 빠른 MoE 스택을 만들 수 있는 실물 부품에 가깝다.
Related Articles
2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.
왜 중요한가: 장시간 실행되는 agent는 모든 메시지를 다시 넣지 않고도 이전 상태를 기억해야 한다. Cloudflare는 private beta로 공개한 Agent Memory가 context window를 채우지 않으면서 필요한 정보를 다시 제공한다고 설명했다.
LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.
Comments (0)
No comments yet. Be the first to comment!