단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
#llm-inference
RSS Feed중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.
2026년 3월 r/singularity에서 공유된 Google Research의 TurboQuant 글은 114 points와 18 comments를 얻었다. Google은 이 방법이 needle 계열 작업에서 KV cache 메모리를 최소 6배 줄이고, 학습 없이 3-bit cache 압축과 H100 기준 최대 8배 attention-logit 속도 향상을 보여준다고 설명한다.
점수가 높은 r/LocalLLaMA 글은 TurboQuant를 polar coordinates가 아니라 random rotation 이후 quantization이라는 직관으로 설명했다. 링크된 arXiv paper는 near-optimal distortion rate, residual QJL, 그리고 KV cache에서 3.5 bits per channel quality neutrality를 주장한다.
r/LocalLLaMA에서 주목받은 TurboQuant는 KV cache를 3-bit로 압축해 memory 사용량을 최소 6배 줄일 수 있다는 Google Research 결과를 다시 끌어올렸다. 관건은 이 기법이 실제 local inference stack에 통합돼 long-context 성능과 운영 비용을 얼마나 바꿀 수 있느냐다.
LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.
Reddit thread는 TurboQuant의 dense rotation을 더 구조적인 rotor math로 바꾸면 attention fidelity를 크게 잃지 않으면서 kernel cost를 낮출 수 있다는 주장에 반응했다.
Hacker News가 주목한 Hypura는 Apple Silicon에서 GPU·RAM·NVMe를 함께 스케줄링해 메모리를 넘는 LLM도 Mac에서 실행 가능하게 하려는 로컬 inference 프로젝트다.
CanIRun.ai는 WebGL, WebGPU, navigator API로 GPU, CPU, RAM을 browser 안에서 감지하고, 어떤 quantized model이 내 장비에 맞는지 추정한다. HN 이용자들은 아이디어를 반겼지만, 누락된 hardware 항목, 보수적인 추정치, model 기준 역검색 기능은 더 보완이 필요하다고 지적했다.
개발자가 운영체제와 커널 없이 UEFI 부트 서비스 모드에서 직접 LLM 추론을 실행하는 베어메탈 AI 시스템을 구현했습니다. 토크나이저부터 추론 엔진까지 순수 C로 작성된 1,000줄짜리 UEFI 애플리케이션입니다.
r/LocalLLaMA에서 화제가 된 DualPath 논문은 KV-Cache 로딩 경로를 분리해 I/O 병목을 완화하는 시스템 설계를 제안한다. arXiv 초록 기준으로 오프라인 최대 1.87배, 온라인 평균 1.96배 처리량 개선을 보고했다.
Hacker News 고득점 스레드는 Together AI의 CDLM 글을 공유했다. 해당 글은 확산형 언어모델에서 trajectory-consistent step reduction과 exact block-wise KV caching을 결합해 최대 14.5배 지연시간 개선을 보고한다.