#cuda

RSS 피드

LLM Hacker News May 31, 2026 1 min read

Tiny-vLLM, C++와 CUDA로 LLM inference를 끝까지 따라가는 교재형 엔진

관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.

#llm #cuda #inference

LLM Reddit May 28, 2026 1 min read

AI 생성 CUDA kernel, benchmark 통과 뒤 training을 망가뜨린 bf16 함정

속도만 빠른 kernel은 연구 결과까지 오염시킬 수 있다는 사례가 올라왔다. 관심은 “verifier 통과”가 실제 training 안전성을 보장하지 못한다는 점에 모였다.

#cuda #kernels #benchmarking

AI X/Twitter Apr 16, 2026 1 min read

Cursor agent, NVIDIA Blackwell CUDA kernel을 3주 만에 38% 가속

coding agent가 단순 PR 보조를 넘어 GPU kernel 최적화까지 들어갔다. Cursor는 NVIDIA와의 실험에서 235개 CUDA 문제를 3주간 풀어 38% geomean speedup을 냈다고 밝혔다.

#ai-agents #cuda #nvidia

AI Hacker News Apr 13, 2026 1 min read

Hacker News가 끌어올린 AMD ROCm 전략: CUDA moat를 넘기 위한 'one step after another'

Hacker News front page에 오른 EE Times 인터뷰는 AMD가 ROCm, Triton, OneROCm, open-source 전략으로 CUDA 의존도를 단계적으로 낮추려는 접근을 정리한다. 핵심은 화려한 호환성 선언보다 vLLM과 SGLang이 자연스럽게 돌아가는 boring한 software 완성도다.

#rocm #cuda #amd

AI Reddit Apr 11, 2026 2 min read

Reddit가 지적한 RTX 5090 배치 FP32 workload의 cuBLAS 성능 이상

MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.

#cublas #rtx-5090 #cuda

AI Reddit Apr 11, 2026 1 min read

RTX 5090의 cuBLAS FP32 dispatch 경로에 성능 문제가 있다는 주장

r/MachineLearning의 글과 연결된 benchmark writeup은 RTX 5090의 batched FP32 SGEMM이 비효율적인 cuBLAS 경로를 타며 GPU 계산 자원을 크게 남기고 있다고 주장한다.

#cuda #cublas #gpu

LLM Reddit Mar 22, 2026 2 min read

r/LocalLLaMA, ik_llama.cpp로 Qwen 3.5 prompt ingestion 26배 가속 보고

r/LocalLLaMA의 고신호 benchmark 글은 Qwen 3.5 27B를 mainline llama.cpp에서 ik_llama.cpp로 바꾸자 Blackwell RTX PRO 4000에서 prompt evaluation이 약 43 tok/sec에서 1,122 tok/sec로 뛰었고, generation도 7.5 tok/sec에서 26 tok/sec로 올라갔다고 전했다.

#llama.cpp #qwen #local-llm

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA, GPU kernel 최적화를 hardware 한계 기준으로 재는 SOL-ExecBench 공개

NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.

#nvidia #cuda #benchmarking

LLM Reddit Mar 16, 2026 1 min read

LocalLLaMA가 끌어올린 GreenBoost, NVIDIA GPU memory를 RAM과 NVMe로 확장하는 Linux driver

LocalLLaMA에서 확산된 GreenBoost는 limited vRAM 문제를 우회하려는 experimental Linux kernel module이다. 2026년 3월 14일 Phoronix 보도에 따르면 이 GPLv2 프로젝트는 kernel module과 CUDA shim을 결합해, 큰 allocation을 on-card vRAM 밖의 pinned system RAM과 NVMe tier로 넘기면서도 CUDA application 수정 없이 더 큰 LLM workload를 돌리는 것을 목표로 한다.

#nvidia #vram #cuda

LLM Reddit Mar 6, 2026 1 min read

CUDA Agent 논문, Agentic RL 기반 KernelBench 성능 향상 주장으로 주목

r/singularity에서 ByteDance Seed와 Tsinghua AIR의 CUDA Agent가 공유됐다. 프로젝트는 torch.compile 대비 높은 pass rate와 speedup을 제시하며 GPU kernel 최적화 자동화를 강조했다.

#cuda #agentic-rl #kernelbench

LLM Hacker News Feb 18, 2026 1 min read

HN 화제: LLVM 없이 AMD GFX11 바이너리를 만드는 C99 CUDA 컴파일러 BarraCUDA

Hacker News에서 주목받은 BarraCUDA는 CUDA `.cu` 코드를 LLVM 의존성 없이 AMD GFX11 `.hsaco`로 직접 변환하는 오픈소스 C99 컴파일러로 소개됐다.

#cuda #amd-gpu #compiler