NVIDIA가 2026년 3월 17일 GTC 2026에서 통신 사업자들과 AI grid 구축 움직임을 공개했다. latency와 cost, data locality가 중요한 inference를 network edge로 끌어내려 통신사의 AI monetization 기반을 만들려는 구상이다.
#edge-ai
RSS FeedKitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.
IBM은 2026년 3월 9일 Granite 4.0 1B Speech를 공개했다. 절반 수준의 파라미터로 이전 모델보다 더 높은 영어 전사 정확도, speculative decoding 기반 빠른 추론, 일본어를 포함한 다국어 지원을 제공한다고 밝혔다.
Microsoft Research는 tiny language models(TLM) 기반의 새로운 추론 확장 접근을 공개했다. 발표는 2-bit ternary weight, 최대 8배 속도 향상, 4배 메모리 절감 등 edge 환경 중심의 성능 개선 수치를 강조했다.
Show HN를 통해 Moonshine Voice가 빠르게 확산됐다. 프로젝트는 실시간 음성 제품을 겨냥해 정확도와 지연시간을 함께 개선했다고 주장한다.
ESP32 마이크로컨트롤러에서 단 888KB로 실행되는 Claw 기반 개인 AI 어시스턴트 'zclaw'가 공개됐습니다. Hacker News에서 161포인트를 받으며 임베디드 AI 가능성을 보여줬습니다.
NVIDIA가 2026년 2월 12일 공개한 사례에 따르면 DGX Spark는 대학 연구실에서 대규모 모델 실험과 로컬 추론을 빠르게 수행하는 공통 인프라로 확산되고 있다. South Pole 관측소부터 의료, 로보틱스, 생명과학 연구까지 현장형 AI 개발 속도를 높이는 데 초점이 맞춰져 있다.
LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.
LocalLLaMA 인기 스레드에서 Kitten TTS v0.8이 주목받았다. 80M/40M/14M 오픈 모델과 CPU 구동, 25MB 미만 경량 모델이 핵심 포인트로 제시됐다.
r/MachineLearning 게시물은 동일한 가중치와 ONNX export를 사용해도 Snapdragon 칩셋별 온디바이스 정확도가 91.8%~71.2%까지 크게 벌어질 수 있다고 보고했다.