Google이 2026년 10월부터 2029년 6월까지 SpaceX에 월 $920M을 내고 약 110,000개 NVIDIA GPU와 관련 컴퓨팅 자원을 쓰기로 했다. Gemini Enterprise 수요가 예상보다 커지면서, 자체 인프라 강자인 Google도 외부 AI compute를 단기 조달한다.
#gpu
RSS FeedZai의 ZCube 사례에서 관심은 새 GPU가 아니라 같은 GPU·같은 software stack으로 throughput 15%와 first-token tail latency 40.6% 개선을 냈다는 점에 모였다.
일본 ZOZO가 의류·소프트바디 시뮬레이션용 접촉 해석기를 공개했다. 단일 장면에서 1.8억 개가 넘는 접점을 처리하고 Blender 애드온과 Apache 2.0 라이선스를 제공한다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Tom's Hardware 설문에서 PC 게이머의 60%가 향후 2년간 신규 PC 빌드 계획이 없다고 답했다. AI 수요 급증으로 RAM 가격이 3배 이상 폭등하며 열성 게이머 시장이 사실상 마비 상태다.
AMD가 FSR(FidelityFX Super Resolution) 업스케일링 4.1을 Radeon RX 7000 시리즈에 2026년 7월 공식 지원한다고 발표했다. RX 6000 시리즈 지원은 2027년 예정이다.
4월 29일 공동 성명에 따라 GALAX 관련 운영과 고객 지원은 이제 Palit 공식 채널이 맡는다. 기존 구매자는 보증과 RMA도 Palit을 통해 처리해야 한다.
HN이 이 post를 흥미롭게 본 이유는 Apple Silicon unified memory가 Wasm sandbox와 GPU buffer 사이의 copy boundary를 실제로 줄일 수 있느냐는 구현 질문이었다.
중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.
Hugging Face는 최적화된 GPU 코드를 Hub-native artifact로 바꿔 PyTorch 배포의 까다로운 단계를 줄이려 한다. Clement Delangue는 새 Kernels 흐름이 GPU, PyTorch 빌드, OS에 맞는 precompiled binary를 내려주며 PyTorch baseline 대비 1.7배에서 2.5배 성능 향상을 노린다고 적었다.
Hacker News front page에 오른 EE Times 인터뷰는 AMD가 ROCm, Triton, OneROCm, open-source 전략으로 CUDA 의존도를 단계적으로 낮추려는 접근을 정리한다. 핵심은 화려한 호환성 선언보다 vLLM과 SGLang이 자연스럽게 돌아가는 boring한 software 완성도다.
MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.