LLM Reddit Apr 24, 2026 1 min read
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.