#llm-inference

LLM X/Twitter Jul 14, 2026 1 min read

NVIDIA, LLM 차원 128·256 정렬로 GPU 추론 병목과 지연시간 줄이는 설계 원칙

NVIDIA가 LLM 구조를 GPU tile 크기에 맞추는 설계 원칙을 제시했다. 128 배수 정렬, 256·512 선호, NVFP4와 expert parallelism이 처리량과 지연시간을 함께 좌우한다는 내용이다.

#nvidia #llm-inference #gpu

LLM Hacker News Jun 28, 2026 1 min read

DeepSeek DSpark, LLM 추론 병목을 “검증 길이”에서 다시 잡은 이유

관심은 단순한 속도 수치보다 “어떤 토큰을 검증할 것인가”에 모였다. DSpark는 speculative decoding의 낭비를 줄여 DeepSeek-V4에서 사용자 체감 생성 속도를 60~85% 높였다고 설명한다.

#deepseek #speculative-decoding #llm-inference

LLM Reddit May 12, 2026 1 min read

단종 Intel Optane으로 1조 파라미터 모델을 초당 4토큰에 구동

단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.

#intel-optane #local-llm #llama-cpp

AI X/Twitter Apr 18, 2026 1 min read

Cloudflare Unweight, Llama 번들을 손실 없이 최대 22% 줄이는 GPU 커널 공개

중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.

#cloudflare #llm-inference #gpu

LLM Reddit Mar 29, 2026 2 min read

Reddit가 주목한 TurboQuant, 정확도 손실 없이 3-bit KV cache 압축을 노리는 Google 접근

2026년 3월 r/singularity에서 공유된 Google Research의 TurboQuant 글은 114 points와 18 comments를 얻었다. Google은 이 방법이 needle 계열 작업에서 KV cache 메모리를 최소 6배 줄이고, 학습 없이 3-bit cache 압축과 H100 기준 최대 8배 attention-logit 속도 향상을 보여준다고 설명한다.

#quantization #kv-cache #vector-search

LLM Reddit Mar 29, 2026 1 min read

r/LocalLLaMA가 압축한 TurboQuant의 핵심, rotate한 뒤 quantize하기

점수가 높은 r/LocalLLaMA 글은 TurboQuant를 polar coordinates가 아니라 random rotation 이후 quantization이라는 직관으로 설명했다. 링크된 arXiv paper는 near-optimal distortion rate, residual QJL, 그리고 KV cache에서 3.5 bits per channel quality neutrality를 주장한다.

#turboquant #quantization #kv-cache

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA가 주목한 TurboQuant, KV cache 압축으로 local LLM 한계 낮추나

r/LocalLLaMA에서 주목받은 TurboQuant는 KV cache를 3-bit로 압축해 memory 사용량을 최소 6배 줄일 수 있다는 Google Research 결과를 다시 끌어올렸다. 관건은 이 기법이 실제 local inference stack에 통합돼 long-context 성능과 운영 비용을 얼마나 바꿀 수 있느냐다.

#compression #kv-cache #quantization

LLM Reddit Mar 27, 2026 2 min read

LocalLLaMA가 주목한 TurboQuant 구현, sparse V dequant로 32K decode 22.8% 개선

LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.

#llm-inference #kv-cache #llama-cpp

LLM Reddit Mar 27, 2026 1 min read

LocalLLaMA가 주목한 RotorQuant, KV cache compression을 Clifford rotors로 다시 쓰다

Reddit thread는 TurboQuant의 dense rotation을 더 구조적인 rotor math로 바꾸면 attention fidelity를 크게 잃지 않으면서 kernel cost를 낮출 수 있다는 주장에 반응했다.

#rotorquant #quantization #kv-cache

LLM Hacker News Mar 25, 2026 1 min read

Hacker News가 주목한 Hypura, Mac에서 용량 초과 LLM을 계층 스케줄링으로 구동

Hacker News가 주목한 Hypura는 Apple Silicon에서 GPU·RAM·NVMe를 함께 스케줄링해 메모리를 넘는 LLM도 Mac에서 실행 가능하게 하려는 로컬 inference 프로젝트다.

#apple-silicon #llm-inference #memory-scheduling

LLM Hacker News Mar 13, 2026 1 min read

Hacker News, browser에서 local AI 호환성을 계산하는 CanIRun.ai에 주목

CanIRun.ai는 WebGL, WebGPU, navigator API로 GPU, CPU, RAM을 browser 안에서 감지하고, 어떤 quantized model이 내 장비에 맞는지 추정한다. HN 이용자들은 아이디어를 반겼지만, 누락된 hardware 항목, 보수적인 추정치, model 기준 역검색 기능은 더 보완이 필요하다고 지적했다.

#local-ai #llm-inference #hardware

AI Reddit Mar 1, 2026 1 min read

OS 없이 LLM 추론 — UEFI에서 직접 부팅하는 베어메탈 AI

개발자가 운영체제와 커널 없이 UEFI 부트 서비스 모드에서 직접 LLM 추론을 실행하는 베어메탈 AI 시스템을 구현했습니다. 토크나이저부터 추론 엔진까지 순수 C로 작성된 1,000줄짜리 UEFI 애플리케이션입니다.

#bare-metal #llm-inference #uefi