r/MachineLearning의 글과 연결된 benchmark writeup은 RTX 5090의 batched FP32 SGEMM이 비효율적인 cuBLAS 경로를 타며 GPU 계산 자원을 크게 남기고 있다고 주장한다.
#gpu
RSS Feedr/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
MegaTrain은 parameters와 optimizer states를 host memory에 두고 layer를 GPU로 streaming하는 방식으로, 단일 GPU에서 100B+ 파라미터 LLM의 full precision 학습을 겨냥한다. 최근 Hacker News에서 이 논문이 주목받은 이유는 training bottleneck을 GPU 수량이 아니라 memory system 설계 문제로 다시 정의하기 때문이다.
Lemonade는 GPU·NPU를 겨냥한 OpenAI-compatible server로 local AI inference를 패키징해, everyday PC에서 open model 배포를 더 쉽게 하려는 스택이다.
r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.
Hacker News에서 화제가 된 ATLAS는 consumer GPU 기반 local coding agent의 비용 효율을 크게 강조한다. 다만 README의 74.6% LiveCodeBench 수치는 best-of-3 plus repair 파이프라인과 다른 task 수를 전제로 하므로, Claude 4.5 Sonnet과의 비교는 비통제 비교로 읽어야 한다.
LocalLLaMA에서 이 글이 빠르게 올라온 이유는 Intel GPU 뉴스를 실제 local inference 사용자가 보는 지표, 즉 VRAM, bandwidth, software support, cost로 번역해냈기 때문이다.
r/LocalLLaMA의 llama.cpp 비교 글은 55 upvotes와 81 comments를 기록했다. RTX 5090, DGX Spark, AMD AI395, single과 dual R9700를 같은 parameter로 비교해 local inference hardware의 현실적인 trade-off를 보여줬다.
r/LocalLLaMA에서 Intel Arc Pro B70/B65 출시 소식은 213 upvotes와 133 comments를 기록했다. Intel은 B70을 2026년 3월 25일부터 $949에 판매하고, B65는 mid-April에 출시한다고 밝혔다.
LocalLLaMA의 기술 토론은 FlashAttention-4 논문을 실제 배포 관점으로 풀어내며, Blackwell에서의 큰 성능 향상과 Python 기반 kernel 개발 속도 개선, 그리고 A100·consumer GPU 사용자가 당장 누리기 어려운 현실을 함께 짚었다.
10 Mar 2026에 제출된 arXiv 논문 Flash-KMeans는 Exact K-Means의 GPU 병목인 N x K distance matrix의 HBM materialization과 centroid update의 atomic contention을 직접 겨냥한다. Hacker News에서 180 points와 14 comments를 모은 이유는, 이 결과가 FlashAttention-style systems optimization, CPU와 GPU의 차이, 그리고 K-Means의 online primitive화라는 실무 질문으로 바로 이어졌기 때문이다.
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.