ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

LocalLLaMAでこの投稿が伸びたのは、38.2%という数字そのものより、その数字がどこに位置づくかをはっきり示したからだ。投稿者はopen-weight 27B-32BモデルをTerminal-Bench 2.0の89タスクで回し、default per-task timeout条件でQwen 3.6-27Bが34/89、つまり38.2%だったと整理した。ポイントは「最高性能」ではなく、「もう何に使えるか」である。

比較軸として出てくるのはlate-2025のhosted frontierだ。投稿はverified leaderboard上の過去の帯域に38.2%を重ねる。Terminus 2 + Claude Opus 4.1が38.0%、GPT-5.1-Codexが36.9%、Claude Code + Sonnet 4.5が40.1%、Codex CLI + GPT-5-Codexが44.3%。もちろん現在の最前線は80%前後で、そこにはまだ大きな差がある。それでも「今のローカル最高点が、およそ6〜8か月前のfrontierに近い」という読みは、空気を一気に変えるには十分だった。

リンク先のAntigmaブログはその意味をさらに具体化している。まず38.2%はdefault timeoutでの数字であり、Qwen側の3-hour timeout評価では同じQwen 3.6-27Bが59.3%まで伸びる。かなりの失敗が、能力不足というより時間切れである可能性を示す数字だ。さらに、64 GB RAM + RTX 3060 12 GBのような普通のデスクトップではMoEモデルの方がdense modelより体感が良く、RTX 5090 32 GBではdense 27Bでも十分に会話的な速度へ上がるという説明も入る。

ベンチマーク: Terminal-Bench 2.0、89タスク
default timeout結果: Qwen 3.6-27Bが38.2%
投稿の読み: late-2025 frontier相当の品質帯
追加文脈: 3-hour timeoutでは59.3%まで上昇

最初期のコメントがすぐに「全部RTX 5090で測ったのか」と聞いたのも象徴的だ。LocalLLaMAはこれをfrontier APIへの勝利宣言として扱っていない。むしろ、プライバシー、規制、air-gapped環境、オンプレ運用で、ローカルコーディングを本当に検討できる段階に入ったかを測る材料として読んでいる。その温度感こそ、この投稿が伸びた理由である。

Source links: Reddit thread, linked benchmark write-up.

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

Related Articles

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-35B結果より大きかった論点、LocalLLaMAが見たscaffold問題
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。

Qwen3.6-27B、397B級前世代をcoding指標で上回りApache 2.0 open weightで公開