DeepSeek 모멘트 13개월 후: 로컬 AI 실행은 얼마나 발전했나?

13개월 전 vs 지금

2025년 1월, Hugging Face 엔지니어가 DeepSeek R1 모델을 Q8 양자화로 초당 약 5 토큰 속도로 실행하는 방법을 트윗했다. 당시 이를 위해 필요한 하드웨어 비용은 약 $6,000이었다.

r/LocalLLaMA에서 176점을 받은 이 비교에 따르면, 이제 동일한 속도로 더 우수한 모델을 $600짜리 미니 PC에서 실행할 수 있다. 구체적으로는 Qwen3-27B Q4 모델이 $600짜리 AOOSTAR 미니 PC에서 약 5 TPS로 실행 가능하다.

더 실용적인 속도를 원한다면?

더 빠른 속도를 원한다면, Qwen3.5-35B-A3B(MoE 아키텍처) Q4/Q5 양자화 모델을 같은 하드웨어에서 17-20 TPS로 실행할 수 있다. 이는 일상적인 AI 보조 작업에 충분히 실용적인 속도다.

앞으로의 전망

이 커뮤니티 멤버는 이런 진보 속도를 보며 낙관적인 전망을 제시한다: 내년이면 지금의 최고급 모델보다 훨씬 뛰어난 4B 모델을 로컬에서 실행할 수 있을지도 모른다. 단순 소비자 하드웨어에서 프론티어급 AI 실행이 가능해지는 미래가 점점 가까워지고 있다.

왜 중요한가?

로컬 AI 실행의 민주화는 단순한 비용 절감을 넘어선다. 인터넷 연결 없이 프라이버시를 보장하며, 클라우드 서비스 의존도를 낮추고, 개발도상국이나 인프라가 취약한 지역에서도 고품질 AI 접근을 가능하게 한다. 13개월 만의 이 놀라운 발전은 앞으로의 가능성을 매우 밝게 보여준다.