관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.
#cuda
RSS Feed속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.
coding agent가 단순 PR 보조를 넘어 GPU kernel 최적화까지 들어갔다. Cursor는 NVIDIA와의 실험에서 235개 CUDA 문제를 3주간 풀어 38% geomean speedup을 냈다고 밝혔다.
Hacker News front page에 오른 EE Times 인터뷰는 AMD가 ROCm, Triton, OneROCm, open-source 전략으로 CUDA 의존도를 단계적으로 낮추려는 접근을 정리한다. 핵심은 화려한 호환성 선언보다 vLLM과 SGLang이 자연스럽게 돌아가는 boring한 software 완성도다.
MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.
r/MachineLearning의 글과 연결된 benchmark writeup은 RTX 5090의 batched FP32 SGEMM이 비효율적인 cuBLAS 경로를 타며 GPU 계산 자원을 크게 남기고 있다고 주장한다.
r/LocalLLaMA의 고신호 benchmark 글은 Qwen 3.5 27B를 mainline llama.cpp에서 ik_llama.cpp로 바꾸자 Blackwell RTX PRO 4000에서 prompt evaluation이 약 43 tok/sec에서 1,122 tok/sec로 뛰었고, generation도 7.5 tok/sec에서 26 tok/sec로 올라갔다고 전했다.
NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.
LocalLLaMA에서 확산된 GreenBoost는 limited vRAM 문제를 우회하려는 experimental Linux kernel module이다. 2026년 3월 14일 Phoronix 보도에 따르면 이 GPLv2 프로젝트는 kernel module과 CUDA shim을 결합해, 큰 allocation을 on-card vRAM 밖의 pinned system RAM과 NVMe tier로 넘기면서도 CUDA application 수정 없이 더 큰 LLM workload를 돌리는 것을 목표로 한다.
r/singularity에서 ByteDance Seed와 Tsinghua AIR의 CUDA Agent가 공유됐다. 프로젝트는 torch.compile 대비 높은 pass rate와 speedup을 제시하며 GPU kernel 최적화 자동화를 강조했다.
Hacker News에서 주목받은 BarraCUDA는 CUDA `.cu` 코드를 LLVM 의존성 없이 AMD GFX11 `.hsaco`로 직접 변환하는 오픈소스 C99 컴파일러로 소개됐다.