관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.
토큰 사용량과 투자자 구성이 함께 주목을 받았다. HN 댓글의 관심은 “모델 라우터가 독립 인프라로 남을 수 있나”에 모였다.
NVIDIA가 Dynamo serving stack을 빠르게 실험하는 DynoSim을 공개했다. 기술 블로그 기준 Apple M4 MacBook Air에서 23,608개 요청, 60.1분 분량 트래픽을 2.41초에 재현해 약 1,500배 빠른 시뮬레이션을 보였다.
LLM inference 운영에서 비싼 GPU 실험을 먼저 돌릴 필요가 줄어든다. NVIDIA DynoSim은 23,608개 request trace를 Apple M4 MacBook Air에서 2.41초에 재생하며 real time 대비 약 1,500배 빠른 serving simulation을 제시했다.
새로운 초점은 챗봇이 아니라 항공기, 자동차, 반도체 장비 설계다. Mistral은 Airbus, BMW, ASML 사례와 Q3 2026 개소 예정인 10MW Les Ulis inference 시설을 함께 제시하며 산업용 AI stack을 전면에 세웠다.
Zai의 ZCube 사례에서 관심은 새 GPU가 아니라 같은 GPU·같은 software stack으로 throughput 15%와 first-token tail latency 40.6% 개선을 냈다는 점에 모였다.
모델을 하나 고르는 시대보다, 요청마다 비용·속도·성능을 갈아타는 운영층에 돈이 몰리고 있다. OpenRouter는 주간 25조 토큰, 400개 이상 모델, 800만 명 이상 사용자라는 숫자로 $113 million Series B를 끌어냈다.
Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
DeepSeek 등이 도입해 주목받은 Multi-Token Prediction(MTP) 기능이 llama.cpp 마스터 브랜치에 공식 병합됐다. 로컬 LLM 추론 속도 향상에 기여할 오픈소스 이정표다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.