OpenRouter、gpt-oss-20bとGemma 4 26Bの無料capacityを追加
Original: OpenRouter adds free capacity for gpt-oss-20b and Gemma 4 26B View original →
無料推論capacityがモデル流通の武器に
OpenRouterが無料推論capacityを追加し、open-weight modelの試用導線を広げた。6月15日の投稿で同社は「New Free capacity on OpenRouter」と書き、EigenLabsのDarkbloomが提供するgpt-oss-20bとGemma 4 26Bを対象に挙げた。
これは単なるmodel catalogの更新ではない。OpenRouterのmodel pageによると、gpt-oss-20bはApache 2.0ライセンスのopen-weight modelで、総parameter数は21B、MoE構造によりforward passごとに3.6B parameterを有効化する。context windowは131Kで、function calling、tool use、structured output、fine-tuning、reasoning level設定を支援するとされる。
一方のGemma 4 26B A4Bは、Google DeepMindのinstruction-tuned MoE modelとして紹介されている。総parameter数は25.2Bで、tokenごとに3.8Bがactiveになる。OpenRouterは256K-token context windowに加え、text、image、最大60秒・1fpsのvideo inputを扱えると説明している。2つのmodelが無料枠に入ることで、開発者はrouting、latency、task適性を支払い前に検証しやすくなる。
OpenRouterは、application developerと複数のmodel providerの間に立つmarketplaceだ。同じmodelを複数providerがhostする場合、価格と速度を見てroutingしたり、特定providerに固定したりできる。今回の投稿でDarkbloomの名前を出したことは、推論capacityそのものが競争対象になっていることを示す。
ただし無料capacityは、rate limit、provider availability、time to first tokenに左右される。headline specだけでは本番利用に足りない。次に見るべき点は、この無料枠が短期の集客策にとどまるのか、それともopen-weight modelを配布する標準的な入口として定着するのかである。
Related Articles
OpenRouterはFusion APIがDRACOの100件の深層研究タスクでClaude Fable 5に1%以内まで迫ったと説明した。複数モデル、judge model、synthesizerを組み合わせ、費用をおよそ半分に抑える点が焦点だ。
Google DeepMindが26B MoE open modelのDiffusionGemmaを公開した。256-tokenブロックを並列に生成・修正するtext diffusion方式で、専用GPUでは最大4x高速な生成を狙う。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。