Hacker Newsが追うtinybox、120B級offline AIをshipping productへ押し上げる

2026年3月21日に投稿された Hacker News のスレッド "Tinybox – Offline AI device 120B parameters" は、March 22, 2026 時点で 279 points と 163 comments を集めていた。リンク先は tinygrad の tinybox ページで、cloud を借りる代わりに local で deep learning training と inference を回すための box を前面に出している。HN で反応が広がったのは、単なる構想ではなく shipping product と価格が同時に示されているからだ。

tinygrad が掲げる主要構成はわかりやすい。Red V2 は 4x 9070 XT、FP16 778 TFLOPS、価格は $12,000。Green V2 は 4x RTX PRO 6000 Blackwell、FP16 3,086 TFLOPS、価格は $65,000 だ。さらに tinygrad は tinybox ラインを MLPerf Training 4.0 で、自分たちよりおよそ 10 倍高価な system と比較したとも説明している。つまり高価な showcase machine ではなく、performance per dollar を狙った deep learning hardware として売り出している。

Red V2: 4x 9070 XT, FP16 778 TFLOPS, $12,000
Green V2: 4x RTX PRO 6000 Blackwell, FP16 3,086 TFLOPS, $65,000
tinygrad の立て付け: training 向けに作り、そこから inference まで担わせる

この話題が重要なのは、local LLM と agent workflow が hobby の域を超えつつあるからだ。privacy、predictable cost、data residency を同時に取りたい team にとって、DIY rig と hyperscaler の間を埋める turnkey hardware は戦略的な選択肢になる。70B から 120B 級の model を on-prem で扱いたい需要が増えるほど、こうした box の意味は大きくなる。

もちろん、最終評価は実運用で決まる。thermals、serviceability、software stack の成熟度、長時間 inference の安定性はまだ見極めが必要だ。それでも今回の HN の反応は明快だ。local AI hardware は niche な自作分野ではなく、研究チームや startup が実際に購入を検討する product category に近づいている。

Hacker Newsが追うtinybox、120B級offline AIをshipping productへ押し上げる

Related Articles

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS

Comments (0)

Leave a Comment

Related Articles

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。

r/LocalLLaMA: 文書分類ワークロードでQwen 3.5 27Bが約2000 TPS
LLM Reddit Mar 15, 2026 1 min read