Valve engineer Natalie Vlock의 Linux VRAM optimization은 VRAM이 부족할 때 foreground game을 우선한다. TweakTown은 RX 6500 XT 테스트에서 Alan Wake II가 1080p low, FSR Quality 기준 14 FPS에서 41 FPS로 올랐다고 전했다.
#performance
RSS FeedLocalLLaMA가 이 merge에 반응한 이유는 바로 써볼 수 있기 때문이었다. 다만 thread의 핵심은 속도 향상이 prompt 반복성과 draft acceptance에 크게 좌우된다는 caveat였다.
r/MachineLearning의 글과 연결된 benchmark writeup은 RTX 5090의 batched FP32 SGEMM이 비효율적인 cuBLAS 경로를 타며 GPU 계산 자원을 크게 남기고 있다고 주장한다.
TechSpot은 2026년 4월 4일 Steam client 코드에 다른 이용자 데이터를 바탕으로 예상 FPS chart를 보여주는 문구가 포착됐다고 전했다. Valve가 3월 9일 도입한 anonymized framerate data 수집과 맞물리며, 실제 구매 전 성능 투명성을 높일 가능성이 거론된다.
Tom’s Hardware는 RPCS3 개발진이 PlayStation 3의 Cell 프로세서에서 새로운 SPU 사용 패턴을 찾아내고 더 효율적인 재컴파일 경로를 추가했다고 전했다. 프로젝트 측은 이 변화가 모든 게임에 이득을 주며, Twisted Metal 기준 최근 빌드 사이 평균 FPS가 5%에서 7% 개선됐다고 설명한다.
2026년 3월 25일 Reco의 `gnata` 글을 다룬 Hacker News 포스트는 크롤링 시점 기준 256 points와 237 comments를 기록했다. Reco는 JSONata 2.x를 Go로 옮기는 AI-assisted 작업이 약 7시간과 400달러 토큰 비용으로 시작됐고, RPC 중심 Node fleet 제거와 후속 리팩터링까지 합치면 연간 약 50만 달러 비용 절감으로 이어졌다고 주장한다.
Gearbox와 2K는 Borderlands 4의 3월 26일 patch에서 PC 평균 FPS를 약 20% 끌어올리고 crash와 stutter도 줄였다고 밝혔다.
LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
Ollama가 2월 22일 버전 0.17을 출시해 자체 추론 엔진을 도입했다. NVIDIA GPU에서 프롬프트 처리 최대 40%, 토큰 생성 18% 향상됐으며, 개선된 멀티-GPU 텐서 병렬 처리와 AMD RDNA 4 지원도 추가됐다.
한 연구자가 15개의 LLM 코딩 성능을 단 하나의 변화로 극적으로 개선했다. 모델이 아닌 편집 도구 설계를 바꿔 Grok Code Fast의 성공률이 6.7%에서 68.3%로 10배 향상됐다.
Digital Foundry의 테스트 결과, Resident Evil 4 Remake PC 버전에 추가된 새로운 DRM이 CPU 성능에 부정적 영향을 미치는 것으로 확인되었다.