모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

이번엔 모델보다 인프라가 더 크게 먹혔다

LocalLLaMA에서 DeepEP V2와 TileKernels 글이 힘을 받은 건 예쁜 벤치마크 이미지 때문이 아니었다. 커뮤니티가 본 건 MoE 시스템의 진짜 병목에 가까운 작업이었다. expert parallel 통신, 라우팅, 커널 최적화 같은 배관을 더 빠르게 돌릴 수 있느냐는 문제다. 오픈 모델 생태계에서는 이런 인프라 공개가 체감 성능에 바로 이어진다.

DeepEP V2 릴리스 노트를 보면 변화 폭이 작지 않다. expert parallelism을 전면적으로 다시 짰고, high-throughput API와 low-latency API를 하나로 묶었다. NVSHMEM 대신 더 가벼운 NCCL Gin backend로 바뀌었고, scale-up과 scale-out 범위는 EP2048까지 넓혔다. DeepSeek는 V1 대비 최대 1.3배 peak 성능, 최대 4배 적은 SM 사용량을 이야기한다. 여기에 experimental 0 SM Engram, pipeline parallelism, context parallelism all-gather도 붙었다.

TileKernels는 다른 쪽 퍼즐 조각이다. TileLang 기반으로 만든 이 라이브러리는 MoE gating과 routing, quantization, transpose, engram gating, manifold hyperconnection, 그리고 torch autograd 래퍼까지 묶는다. 즉 DeepSeek는 통신 계층만 공개한 게 아니라, LLM 인프라에서 반복적으로 튀어나오는 GPU 연산 블록도 같이 꺼내놓은 셈이다.

MoE 성능 병목은 이제 가중치보다 routing과 communication 쪽에서 더 자주 드러난다
SM 사용량을 줄이면 실제 시스템에서 자원 배분 여지가 커진다
오픈 인프라는 다른 팀이 바로 시험하고 변형할 수 있다는 점에서 누적 효과가 크다

상위 댓글도 그 감각을 잘 보여줬다. DeepSeek가 연구실처럼 일하면서도 시스템 작업을 밖으로 풀어 goodwill을 쌓고 있다는 반응이 나왔다. 이건 이미지 관리 차원의 칭찬이 아니다. LocalLLaMA에게 DeepEP V2와 TileKernels는 더 빠른 MoE 스택을 만들 수 있는 실물 부품에 가깝다.

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

이번엔 모델보다 인프라가 더 크게 먹혔다

Related Articles

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계

Cloudflare Agent Memory, agent 대화 기억을 context window 밖에서 관리

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계
LLM Reddit Mar 28, 2026 2 min read

Cloudflare Agent Memory, agent 대화 기억을 context window 밖에서 관리

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다
LLM Reddit Apr 17, 2026 1 min read