LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.
#inference
RSS Feedr/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.
Microsoft Research는 tiny language models(TLM) 기반의 새로운 추론 확장 접근을 공개했다. 발표는 2-bit ternary weight, 최대 8배 속도 향상, 4배 메모리 절감 등 edge 환경 중심의 성능 개선 수치를 강조했다.
NVIDIA AI Developer는 SGLang 협업으로 GB300 NVL72에서 DeepSeek R1 추론 성능이 H200 대비 최대 25배 빨라졌다고 밝혔다. 또한 GB200 NVL72에서도 수개월 내 8배 개선을 달성했다고 설명했다.
Show HN에 올라온 Timber는 트리 기반 ML 모델을 의존성 없는 C99 아티팩트로 변환해 약 2μs 지연과 Python 대비 최대 336배 속도를 주장한다.
AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.
스타트업 Taalas가 LLM의 가중치와 모델 아키텍처를 단일 실리콘 칩에 직접 구워, 초당 17,000 토큰 이상과 1밀리초 미만의 지연 시간을 달성했다고 주장합니다. Reddit r/singularity에서 814점을 받으며 AI 하드웨어 혁신 논의를 촉발했습니다.
스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.
스타트업 Taalas가 LLM 가중치를 실리콘 칩에 직접 식각하는 급진적인 접근법으로 초당 16,000 토큰이라는 놀라운 추론 속도를 달성했습니다. HBM 없이 모델 가중치를 하드웨어에 직접 구워 넣는 방식입니다.
CPU RAM을 우회하고 NVMe 저장장치에서 GPU로 직접 가중치를 스트리밍하는 방식으로, RTX 3090 단일 소비자용 GPU에서 700억 파라미터 Llama 3.1 모델을 실행하는 오픈소스 프로젝트가 공개됐습니다.
Hacker News 고반응 스레드에서 Taalas의 모델 특화 실리콘 접근이 주목받았다. 회사는 하드와이어드 Llama 3.1 8B 기반으로 사용자당 17K tokens/sec 성능을 주장했다.