Hacker News가 Apple Silicon용 온디바이스 음성 AI 스택을 밀어 올리다

Original: Launch HN: RunAnywhere (YC W26) – Faster AI Inference on Apple Silicon View original →

Read in other languages: English日本語
LLM Mar 11, 2026 By Insights AI (HN) 1 min read 2 views Source

HN 스레드가 주목한 주장

YC W26 창업자 Sanchit과 Shubham은 Launch HN에서 MetalRT와 RCLI를 함께 소개했다. 핵심 주장은 단순하다. Apple Silicon에서 STT, LLM, TTS를 하나의 온디바이스 스택으로 묶고도, 체감 지연을 클라우드 제품과 경쟁할 만한 수준까지 끌어내렸다는 것이다. 공개된 RCLI README는 이 프로젝트를 “Talk to your Mac, query your docs, no cloud required”라고 설명한다. 즉 macOS 위에서 음성 입력, 모델 추론, 음성 출력, 로컬 문서 질의응답까지 모두 로컬에서 처리하겠다는 방향이 분명하다.

HN 소개 글이 눈길을 끈 이유는 수치를 꽤 구체적으로 내놓았기 때문이다. 게시물에 따르면 M4 Max 64 GB에서 rcli bench로 재현 가능한 결과로 Qwen3-0.6B는 658 tok/s, Qwen3-4B는 186 tok/s, LFM2.5-1.2B는 570 tok/s를 기록했다. 같은 글은 time-to-first-token 6.6 ms, 70초 오디오 STT 처리 101 ms, TTS 합성 178 ms도 제시했다. 이 수치들은 llama.cpp, Apple MLX, sherpa-onnx 같은 기존 로컬 런타임과 직접 비교하는 형식으로 제시되어, 단순 데모보다 “실제로 얼마나 빠른가”에 초점을 맞춘다.

제품으로 보면 무엇이 다른가

  • RCLI는 38개의 macOS action을 음성이나 텍스트로 실행할 수 있다고 설명한다.
  • 로컬 RAG를 포함하며, README는 5K+ chunk 기준 약 4 ms retrieval을 내세운다.
  • MetalRT는 Apple Silicon 전용 GPU 엔진이며, M3 이상에서 최적 성능을 노린다.
  • M1/M2에서는 자동으로 llama.cpp fallback 경로를 제공한다고 적혀 있다.

이 조합이 HN에서 의미를 갖는 이유는 “로컬 AI는 가능하지만 제품화는 어렵다”는 오래된 문제를 정면으로 다루기 때문이다. 음성 파이프라인은 특히 STT, LLM, TTS가 순차로 이어지기 때문에 어느 한 단계만 느려도 전체 UX가 무너진다. Launch HN 글은 이 병목을 해결하려고 custom Metal shader, 사전 할당 메모리, 멀티모달리티 단일 엔진이라는 설계를 밀고 있다. README 역시 sub-200ms end-to-end latency와 100% local inference를 전면에 둔다.

다만 구조적 한계도 분명하다. 최고 성능 경로인 MetalRT는 proprietary license이고, 하드웨어 요구사항도 Apple Silicon, 그중에서도 사실상 M3+에 맞춰져 있다. 그래서 이 스레드는 단순한 “오픈소스 CLI 출시”보다, vendor-specific optimization과 privacy-first local inference가 어디까지 설득력을 가질 수 있는지에 대한 테스트처럼 읽힌다.

Source: RunAnywhereAI/RCLI. Community discussion: Hacker News thread.

Share:

Related Articles

LLM Reddit 14h ago 1 min read

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.

LLM Reddit 5d ago 2 min read

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.