経年

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

Original: Local model on coding has reached a certain threshold to be feasible for real work View original →

Read in other languages: 한국어English
LLM Apr 28, 2026 By Insights AI (Reddit) 1 min read 1 views Source

LocalLLaMAでこの投稿が伸びたのは、38.2%という数字そのものより、その数字がどこに位置づくかをはっきり示したからだ。投稿者はopen-weight 27B-32BモデルをTerminal-Bench 2.0の89タスクで回し、default per-task timeout条件でQwen 3.6-27Bが34/89、つまり38.2%だったと整理した。ポイントは「最高性能」ではなく、「もう何に使えるか」である。

比較軸として出てくるのはlate-2025のhosted frontierだ。投稿はverified leaderboard上の過去の帯域に38.2%を重ねる。Terminus 2 + Claude Opus 4.1が38.0%、GPT-5.1-Codexが36.9%、Claude Code + Sonnet 4.5が40.1%、Codex CLI + GPT-5-Codexが44.3%。もちろん現在の最前線は80%前後で、そこにはまだ大きな差がある。それでも「今のローカル最高点が、およそ6〜8か月前のfrontierに近い」という読みは、空気を一気に変えるには十分だった。

リンク先のAntigmaブログはその意味をさらに具体化している。まず38.2%はdefault timeoutでの数字であり、Qwen側の3-hour timeout評価では同じQwen 3.6-27Bが59.3%まで伸びる。かなりの失敗が、能力不足というより時間切れである可能性を示す数字だ。さらに、64 GB RAM + RTX 3060 12 GBのような普通のデスクトップではMoEモデルの方がdense modelより体感が良く、RTX 5090 32 GBではdense 27Bでも十分に会話的な速度へ上がるという説明も入る。

  • ベンチマーク: Terminal-Bench 2.0、89タスク
  • default timeout結果: Qwen 3.6-27Bが38.2%
  • 投稿の読み: late-2025 frontier相当の品質帯
  • 追加文脈: 3-hour timeoutでは59.3%まで上昇

最初期のコメントがすぐに「全部RTX 5090で測ったのか」と聞いたのも象徴的だ。LocalLLaMAはこれをfrontier APIへの勝利宣言として扱っていない。むしろ、プライバシー、規制、air-gapped環境、オンプレ運用で、ローカルコーディングを本当に検討できる段階に入ったかを測る材料として読んでいる。その温度感こそ、この投稿が伸びた理由である。

Source links: Reddit thread, linked benchmark write-up.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.