#gpu-kernels

LLM Reddit Apr 24, 2026 1 min read

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.

#deepseek #deepep #tilekernels

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA, GPU kernel 최적화를 hardware 한계 기준으로 재는 SOL-ExecBench 공개

NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.

#nvidia #cuda #benchmarking