Hacker News가 주목한 tinybox, 120B급 offline AI를 shipping product로 밀어 올리다
Original: Tinybox – Offline AI device 120B parameters View original →
2026년 3월 21일 올라온 Hacker News 제출글 "Tinybox – Offline AI device 120B parameters"는 March 22, 2026 기준 279 points와 163 comments를 기록했다. 링크가 가리키는 곳은 tinygrad의 tinybox 페이지로, remote GPU rental 대신 local에서 deep learning training과 inference를 처리하려는 수요를 정면으로 겨냥한다. HN에서 이 글이 반응을 얻은 이유는 단순한 concept art가 아니라 실제 shipping product와 가격표가 함께 제시됐기 때문이다.
tinygrad가 공개한 핵심 구성은 꽤 직설적이다. 페이지에는 red v2와 green v2 두 가지 구성이 먼저 나온다. red v2는 4x 9070 XT 기반으로 FP16 778 TFLOPS를 내세우며 가격은 $12,000이다. green v2는 4x RTX PRO 6000 Blackwell, FP16 3,086 TFLOPS, $65,000으로 올라간다. tinygrad는 이 라인을 "deep learning용으로 매우 강력한 computer"라고 설명하고, 이전 tinybox가 MLPerf Training 4.0에서 자신보다 약 10배 비싼 시스템과 비교됐다고도 적었다.
- Red V2: 4x 9070 XT, FP16 778 TFLOPS, $12,000
- Green V2: 4x RTX PRO 6000 Blackwell, FP16 3,086 TFLOPS, $65,000
- tinygrad 설명: training이 가능하면 inference도 가능하다는 접근
이 장비가 중요한 이유는 local LLM과 agent workflow가 더 이상 hobby 수준에 머물지 않기 때문이다. privacy, predictable cost, data residency를 동시에 잡으려는 팀에게는 cloud API보다 직접 통제 가능한 box가 필요하다. 70B에서 120B급 model을 on-prem으로 굴리려는 수요가 늘수록, DIY rig와 hyperscaler cluster 사이를 메우는 turnkey hardware는 전략적 의미를 갖는다.
물론 아직 검증해야 할 부분도 많다. thermals, serviceability, software stack maturity, long-context inference 안정성은 실제 사용자 경험에서 갈릴 수 있다. 그래도 이번 HN 반응은 분명하다. local AI는 여전히 niche가 아니라, 일정 규모 이상의 개발팀과 연구팀이 현실적인 구매 대상으로 검토하는 hardware segment가 되고 있다.
Related Articles
Google DeepMind는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 업데이트하며 대량·저지연 워크로드용 모델로 제시했다. 회사는 128k input, 8k output, multimodal 입력, native audio generation, 그리고 $0.10/$0.40 수준의 저가 token pricing을 강조했다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.
Comments (0)
No comments yet. Be the first to comment!