부식 중

Hacker News가 Apple Silicon용 온디바이스 음성 AI 스택을 밀어 올리다

Original: Launch HN: RunAnywhere (YC W26) – Faster AI Inference on Apple Silicon View original →

Read in other languages: English日本語
LLM Mar 11, 2026 By Insights AI (HN) 1 min read 5 views Source

HN 스레드가 주목한 주장

YC W26 창업자 Sanchit과 Shubham은 Launch HN에서 MetalRT와 RCLI를 함께 소개했다. 핵심 주장은 단순하다. Apple Silicon에서 STT, LLM, TTS를 하나의 온디바이스 스택으로 묶고도, 체감 지연을 클라우드 제품과 경쟁할 만한 수준까지 끌어내렸다는 것이다. 공개된 RCLI README는 이 프로젝트를 “Talk to your Mac, query your docs, no cloud required”라고 설명한다. 즉 macOS 위에서 음성 입력, 모델 추론, 음성 출력, 로컬 문서 질의응답까지 모두 로컬에서 처리하겠다는 방향이 분명하다.

HN 소개 글이 눈길을 끈 이유는 수치를 꽤 구체적으로 내놓았기 때문이다. 게시물에 따르면 M4 Max 64 GB에서 rcli bench로 재현 가능한 결과로 Qwen3-0.6B는 658 tok/s, Qwen3-4B는 186 tok/s, LFM2.5-1.2B는 570 tok/s를 기록했다. 같은 글은 time-to-first-token 6.6 ms, 70초 오디오 STT 처리 101 ms, TTS 합성 178 ms도 제시했다. 이 수치들은 llama.cpp, Apple MLX, sherpa-onnx 같은 기존 로컬 런타임과 직접 비교하는 형식으로 제시되어, 단순 데모보다 “실제로 얼마나 빠른가”에 초점을 맞춘다.

제품으로 보면 무엇이 다른가

  • RCLI는 38개의 macOS action을 음성이나 텍스트로 실행할 수 있다고 설명한다.
  • 로컬 RAG를 포함하며, README는 5K+ chunk 기준 약 4 ms retrieval을 내세운다.
  • MetalRT는 Apple Silicon 전용 GPU 엔진이며, M3 이상에서 최적 성능을 노린다.
  • M1/M2에서는 자동으로 llama.cpp fallback 경로를 제공한다고 적혀 있다.

이 조합이 HN에서 의미를 갖는 이유는 “로컬 AI는 가능하지만 제품화는 어렵다”는 오래된 문제를 정면으로 다루기 때문이다. 음성 파이프라인은 특히 STT, LLM, TTS가 순차로 이어지기 때문에 어느 한 단계만 느려도 전체 UX가 무너진다. Launch HN 글은 이 병목을 해결하려고 custom Metal shader, 사전 할당 메모리, 멀티모달리티 단일 엔진이라는 설계를 밀고 있다. README 역시 sub-200ms end-to-end latency와 100% local inference를 전면에 둔다.

다만 구조적 한계도 분명하다. 최고 성능 경로인 MetalRT는 proprietary license이고, 하드웨어 요구사항도 Apple Silicon, 그중에서도 사실상 M3+에 맞춰져 있다. 그래서 이 스레드는 단순한 “오픈소스 CLI 출시”보다, vendor-specific optimization과 privacy-first local inference가 어디까지 설득력을 가질 수 있는지에 대한 테스트처럼 읽힌다.

Source: RunAnywhereAI/RCLI. Community discussion: Hacker News thread.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.