#inference

LLM Reddit Mar 8, 2026 1 min read

LocalLLaMA가 공유한 llama.cpp 튜닝 팁, 작은 n_ubatch가 Qwen 27B prompt processing를 크게 끌어올렸다

LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.

#llama.cpp #qwen #rocm

LLM Reddit Mar 8, 2026 1 min read

LocalLLaMA, Qwen 계열을 위한 llama.cpp 업데이트와 GATED_DELTA_NET 병합에 주목

r/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.

#llama.cpp #qwen #qwen-next

LLM Reddit Mar 7, 2026 2 min read

LocalLLaMA PSA: 새 모델 평가는 편의 래퍼보다 기본 런타임부터 맞추라는 조언

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

#local-llm #model-evaluation #llama-cpp

LLM Mar 6, 2026 1 min read

Microsoft, 초소형 추론 모델로 on-device AI 성능 확대 제시

Microsoft Research는 tiny language models(TLM) 기반의 새로운 추론 확장 접근을 공개했다. 발표는 2-bit ternary weight, 최대 8배 속도 향상, 4배 메모리 절감 등 edge 환경 중심의 성능 개선 수치를 강조했다.

#microsoft #tiny-language-models #edge-ai

LLM sources.twitter Mar 4, 2026 1 min read

NVIDIA·SGLang, DeepSeek R1 추론 성능 대폭 향상 주장

NVIDIA AI Developer는 SGLang 협업으로 GB300 NVL72에서 DeepSeek R1 추론 성능이 H200 대비 최대 25배 빨라졌다고 밝혔다. 또한 GB200 NVL72에서도 수개월 내 8배 개선을 달성했다고 설명했다.

#nvidia #sglang #inference

AI Hacker News Mar 4, 2026 1 min read

Show HN: Timber, 고전 ML 모델을 초소형 C 바이너리로 컴파일해 초저지연 추론 제시

Show HN에 올라온 Timber는 트리 기반 ML 모델을 의존성 없는 C99 아티팩트로 변환해 약 2μs 지연과 Python 대비 최대 336배 속도를 주장한다.

#classical-ml #xgboost #inference

LLM sources.twitter Mar 1, 2026 1 min read

카르파티: LLM 메모리·연산 최적화의 핵심 — SRAM vs DRAM 트레이드오프

AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.

#llm #hardware #inference

LLM Reddit Feb 23, 2026 1 min read

Taalas: LLM을 실리콘에 직접 구워 초당 17,000 토큰 달성

스타트업 Taalas가 LLM의 가중치와 모델 아키텍처를 단일 실리콘 칩에 직접 구워, 초당 17,000 토큰 이상과 1밀리초 미만의 지연 시간을 달성했다고 주장합니다. Reddit r/singularity에서 814점을 받으며 AI 하드웨어 혁신 논의를 촉발했습니다.

#taalas #llm #asic

LLM Hacker News Feb 22, 2026 1 min read

타알라스, LLM을 칩에 '인쇄'하다: GPU 대비 10배 빠른 AI 추론 ASIC

스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.

#taalas #asic #llm

AI Reddit Feb 22, 2026 1 min read

Taalas: LLM을 실리콘에 각인 — 초당 16,000 토큰 달성

스타트업 Taalas가 LLM 가중치를 실리콘 칩에 직접 식각하는 급진적인 접근법으로 초당 16,000 토큰이라는 놀라운 추론 속도를 달성했습니다. HBM 없이 모델 가중치를 하드웨어에 직접 구워 넣는 방식입니다.

#ai-hardware #silicon #llm

LLM Hacker News Feb 22, 2026 1 min read

NVMe-to-GPU로 RTX 3090 단일 GPU에서 Llama 3.1 70B 실행

CPU RAM을 우회하고 NVMe 저장장치에서 GPU로 직접 가중치를 스트리밍하는 방식으로, RTX 3090 단일 소비자용 GPU에서 700억 파라미터 Llama 3.1 모델을 실행하는 오픈소스 프로젝트가 공개됐습니다.

#llama #gpu #open-source

LLM Hacker News Feb 20, 2026 1 min read

Taalas, 모델 특화 실리콘으로 저지연 AI 추론 전략 제시

Hacker News 고반응 스레드에서 Taalas의 모델 특화 실리콘 접근이 주목받았다. 회사는 하드와이어드 Llama 3.1 8B 기반으로 사용자당 17K tokens/sec 성능을 주장했다.

#llm #inference #ai-hardware