모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

Original: Deepseek has released DeepEP V2 and TileKernels. View original →

Read in other languages: English日本語
LLM Apr 24, 2026 By Insights AI (Reddit) 1 min read Source

이번엔 모델보다 인프라가 더 크게 먹혔다

LocalLLaMA에서 DeepEP V2와 TileKernels 글이 힘을 받은 건 예쁜 벤치마크 이미지 때문이 아니었다. 커뮤니티가 본 건 MoE 시스템의 진짜 병목에 가까운 작업이었다. expert parallel 통신, 라우팅, 커널 최적화 같은 배관을 더 빠르게 돌릴 수 있느냐는 문제다. 오픈 모델 생태계에서는 이런 인프라 공개가 체감 성능에 바로 이어진다.

DeepEP V2 릴리스 노트를 보면 변화 폭이 작지 않다. expert parallelism을 전면적으로 다시 짰고, high-throughput API와 low-latency API를 하나로 묶었다. NVSHMEM 대신 더 가벼운 NCCL Gin backend로 바뀌었고, scale-up과 scale-out 범위는 EP2048까지 넓혔다. DeepSeek는 V1 대비 최대 1.3배 peak 성능, 최대 4배 적은 SM 사용량을 이야기한다. 여기에 experimental 0 SM Engram, pipeline parallelism, context parallelism all-gather도 붙었다.

TileKernels는 다른 쪽 퍼즐 조각이다. TileLang 기반으로 만든 이 라이브러리는 MoE gating과 routing, quantization, transpose, engram gating, manifold hyperconnection, 그리고 torch autograd 래퍼까지 묶는다. 즉 DeepSeek는 통신 계층만 공개한 게 아니라, LLM 인프라에서 반복적으로 튀어나오는 GPU 연산 블록도 같이 꺼내놓은 셈이다.

  • MoE 성능 병목은 이제 가중치보다 routing과 communication 쪽에서 더 자주 드러난다
  • SM 사용량을 줄이면 실제 시스템에서 자원 배분 여지가 커진다
  • 오픈 인프라는 다른 팀이 바로 시험하고 변형할 수 있다는 점에서 누적 효과가 크다

상위 댓글도 그 감각을 잘 보여줬다. DeepSeek가 연구실처럼 일하면서도 시스템 작업을 밖으로 풀어 goodwill을 쌓고 있다는 반응이 나왔다. 이건 이미지 관리 차원의 칭찬이 아니다. LocalLLaMA에게 DeepEP V2와 TileKernels는 더 빠른 MoE 스택을 만들 수 있는 실물 부품에 가깝다.

Share: Long

Related Articles

LLM Reddit Mar 28, 2026 2 min read

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.