Hacker Newsが追うtinybox、120B級offline AIをshipping productへ押し上げる
Original: Tinybox – Offline AI device 120B parameters View original →
2026年3月21日に投稿された Hacker News のスレッド "Tinybox – Offline AI device 120B parameters" は、March 22, 2026 時点で 279 points と 163 comments を集めていた。リンク先は tinygrad の tinybox ページ で、cloud を借りる代わりに local で deep learning training と inference を回すための box を前面に出している。HN で反応が広がったのは、単なる構想ではなく shipping product と価格が同時に示されているからだ。
tinygrad が掲げる主要構成はわかりやすい。Red V2 は 4x 9070 XT、FP16 778 TFLOPS、価格は $12,000。Green V2 は 4x RTX PRO 6000 Blackwell、FP16 3,086 TFLOPS、価格は $65,000 だ。さらに tinygrad は tinybox ラインを MLPerf Training 4.0 で、自分たちよりおよそ 10 倍高価な system と比較したとも説明している。つまり高価な showcase machine ではなく、performance per dollar を狙った deep learning hardware として売り出している。
- Red V2: 4x 9070 XT, FP16 778 TFLOPS, $12,000
- Green V2: 4x RTX PRO 6000 Blackwell, FP16 3,086 TFLOPS, $65,000
- tinygrad の立て付け: training 向けに作り、そこから inference まで担わせる
この話題が重要なのは、local LLM と agent workflow が hobby の域を超えつつあるからだ。privacy、predictable cost、data residency を同時に取りたい team にとって、DIY rig と hyperscaler の間を埋める turnkey hardware は戦略的な選択肢になる。70B から 120B 級の model を on-prem で扱いたい需要が増えるほど、こうした box の意味は大きくなる。
もちろん、最終評価は実運用で決まる。thermals、serviceability、software stack の成熟度、長時間 inference の安定性はまだ見極めが必要だ。それでも今回の HN の反応は明快だ。local AI hardware は niche な自作分野ではなく、研究チームや startup が実際に購入を検討する product category に近づいている。
Related Articles
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。
r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。
Comments (0)
No comments yet. Be the first to comment!