Hacker Newsが注目したGemma 4 local-agent実験: Codex CLIをcloud外で動かす現実的レシピ

Original: I ran Gemma 4 as a local model in Codex CLI View original →

Read in other languages: 한국어English
LLM Apr 14, 2026 By Insights AI (HN) 1 min read Source

Hacker Newsで注目を集めたDaniel VaughanのApril 2026の記事は、Gemma 4をlocal modelとしてCodex CLIに接続し、日常的なagentic codingに耐えるかを試した実験記録だ。論点は単なるbenchmarkではない。Codex CLIの価値は、modelがfileを読み、正しくtool callを出し、codeを書き、長いpromptでも壊れずに動くことにある。cost、privacy、resilienceの面でlocal deploymentは魅力的だが、それをagentとして成立させるにはtool callingの安定性が必要になる。

検証は二つの環境で行われた。ひとつは24 GB M4 Pro MacBook Proで、Gemma 4 26B MoEをllama.cpp経由で動かす構成。もうひとつはDell Pro Max GB10で31B Dense variantを動かす構成だ。Apple Silicon側では、最初に試したOllamaがすぐに限界に当たった。v0.20.3ではtool-call responseが誤ったfieldに入るstreaming bugがあり、さらにFlash Attention freezeで長いpromptが止まるという。Codex CLIのsystem prompt自体が約27,000 tokensあるため、この組み合わせでは現実的な運用が難しかった。

Macで動いたのはllama.cppを使う経路だった。記事では--jinja-np 1-ctk q8_0-ctv q8_0、direct GGUF pathを指定する-mなど、各flagがなぜ必要かまで説明している。さらにCodex CLI profileではweb_search = "disabled"が必要だった。llama.cppがweb_search_preview tool typeを受け付けないためだ。一方GB10ではvLLMがPyTorch ABI mismatchで失敗し、代わりにOllama v0.20.5がSSH tunnel経由で動作した。

この投稿が響いた理由は、local coding agentという抽象論を、壊れる箇所と動く組み合わせの両方を含む具体的なrecipeに落とし込んだからだ。HNのcommentでもGemma 4 26Bをweight classの外れ値とみなす声があったが、より重要なのは運用面の教訓だろう。local agent stackはもう無視できない水準に来ている一方、成果はserving detailに大きく左右される。local-firstなcoding workflowを考えるチームにとって、こうした現場レポートはleaderboardよりずっと参考になる。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.