#kernels

LLM Reddit May 28, 2026 1 min read

AI 생성 CUDA kernel, benchmark 통과 뒤 training을 망가뜨린 bf16 함정

속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.

LLM X/Twitter Apr 30, 2026 1 min read

Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속

중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.

#qwen #linear-attention #kernels

LLM Reddit Apr 29, 2026 1 min read

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.

#qwen #flashqla #linear-attention

AI Apr 14, 2026 1 min read

Hugging Face, Hub에서 GPU kernel 바로 배포… PyTorch 대비 최대 2.5배

Hugging Face는 최적화된 GPU 코드를 Hub-native artifact로 바꿔 PyTorch 배포의 까다로운 단계를 줄이려 한다. Clement Delangue는 새 Kernels 흐름이 GPU, PyTorch 빌드, OS에 맞는 precompiled binary를 내려주며 PyTorch baseline 대비 1.7배에서 2.5배 성능 향상을 노린다고 적었다.

#hugging-face #kernels #pytorch