ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン
Original: Local model on coding has reached a certain threshold to be feasible for real work View original →
LocalLLaMAでこの投稿が伸びたのは、38.2%という数字そのものより、その数字がどこに位置づくかをはっきり示したからだ。投稿者はopen-weight 27B-32BモデルをTerminal-Bench 2.0の89タスクで回し、default per-task timeout条件でQwen 3.6-27Bが34/89、つまり38.2%だったと整理した。ポイントは「最高性能」ではなく、「もう何に使えるか」である。
比較軸として出てくるのはlate-2025のhosted frontierだ。投稿はverified leaderboard上の過去の帯域に38.2%を重ねる。Terminus 2 + Claude Opus 4.1が38.0%、GPT-5.1-Codexが36.9%、Claude Code + Sonnet 4.5が40.1%、Codex CLI + GPT-5-Codexが44.3%。もちろん現在の最前線は80%前後で、そこにはまだ大きな差がある。それでも「今のローカル最高点が、およそ6〜8か月前のfrontierに近い」という読みは、空気を一気に変えるには十分だった。
リンク先のAntigmaブログはその意味をさらに具体化している。まず38.2%はdefault timeoutでの数字であり、Qwen側の3-hour timeout評価では同じQwen 3.6-27Bが59.3%まで伸びる。かなりの失敗が、能力不足というより時間切れである可能性を示す数字だ。さらに、64 GB RAM + RTX 3060 12 GBのような普通のデスクトップではMoEモデルの方がdense modelより体感が良く、RTX 5090 32 GBではdense 27Bでも十分に会話的な速度へ上がるという説明も入る。
- ベンチマーク: Terminal-Bench 2.0、89タスク
- default timeout結果: Qwen 3.6-27Bが38.2%
- 投稿の読み: late-2025 frontier相当の品質帯
- 追加文脈: 3-hour timeoutでは59.3%まで上昇
最初期のコメントがすぐに「全部RTX 5090で測ったのか」と聞いたのも象徴的だ。LocalLLaMAはこれをfrontier APIへの勝利宣言として扱っていない。むしろ、プライバシー、規制、air-gapped環境、オンプレ運用で、ローカルコーディングを本当に検討できる段階に入ったかを測る材料として読んでいる。その温度感こそ、この投稿が伸びた理由である。
Source links: Reddit thread, linked benchmark write-up.
Related Articles
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
Comments (0)
No comments yet. Be the first to comment!