Launch HN 스레드로 RunAnywhere의 RCLI가 부각됐다. 이 프로젝트는 Apple Silicon에서 STT, LLM, TTS, 로컬 RAG, 38개 macOS action을 모두 로컬로 묶어 macOS용 Voice AI를 구축하려는 시도다.
#inference
RSS Feed화제가 된 HN 스레드는 Claude Code 사용자 1명당 월 $5,000이 든다는 숫자가 Anthropic의 실제 serving cost가 아니라 retail API 기준 사용액을 가리킬 가능성이 크다고 본다.
LocalLLaMA의 한 글은 RX 9070 XT에서 llama.cpp `--ubatch-size`를 64로 낮췄더니 Qwen3.5-27B의 prompt processing 속도가 크게 뛰었다고 보고했다. 핵심은 64가 만능값이라는 것이 아니라, prompt ingestion과 token generation이 `n_ubatch`에 전혀 다르게 반응할 수 있다는 점이다.
r/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.
Microsoft Research는 tiny language models(TLM) 기반의 새로운 추론 확장 접근을 공개했다. 발표는 2-bit ternary weight, 최대 8배 속도 향상, 4배 메모리 절감 등 edge 환경 중심의 성능 개선 수치를 강조했다.
NVIDIA AI Developer는 SGLang 협업으로 GB300 NVL72에서 DeepSeek R1 추론 성능이 H200 대비 최대 25배 빨라졌다고 밝혔다. 또한 GB200 NVL72에서도 수개월 내 8배 개선을 달성했다고 설명했다.
Show HN에 올라온 Timber는 트리 기반 ML 모델을 의존성 없는 C99 아티팩트로 변환해 약 2μs 지연과 Python 대비 최대 336배 속도를 주장한다.
AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.
스타트업 Taalas가 LLM의 가중치와 모델 아키텍처를 단일 실리콘 칩에 직접 구워, 초당 17,000 토큰 이상과 1밀리초 미만의 지연 시간을 달성했다고 주장합니다. Reddit r/singularity에서 814점을 받으며 AI 하드웨어 혁신 논의를 촉발했습니다.
스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.
CPU RAM을 우회하고 NVMe 저장장치에서 GPU로 직접 가중치를 스트리밍하는 방식으로, RTX 3090 단일 소비자용 GPU에서 700억 파라미터 Llama 3.1 모델을 실행하는 오픈소스 프로젝트가 공개됐습니다.