Hacker Newsが注目したGemma 4 local-agent実験: Codex CLIをcloud外で動かす現実的レシピ

Hacker Newsで注目を集めたDaniel VaughanのApril 2026の記事は、Gemma 4をlocal modelとしてCodex CLIに接続し、日常的なagentic codingに耐えるかを試した実験記録だ。論点は単なるbenchmarkではない。Codex CLIの価値は、modelがfileを読み、正しくtool callを出し、codeを書き、長いpromptでも壊れずに動くことにある。cost、privacy、resilienceの面でlocal deploymentは魅力的だが、それをagentとして成立させるにはtool callingの安定性が必要になる。

検証は二つの環境で行われた。ひとつは24 GB M4 Pro MacBook Proで、Gemma 4 26B MoEをllama.cpp経由で動かす構成。もうひとつはDell Pro Max GB10で31B Dense variantを動かす構成だ。Apple Silicon側では、最初に試したOllamaがすぐに限界に当たった。v0.20.3ではtool-call responseが誤ったfieldに入るstreaming bugがあり、さらにFlash Attention freezeで長いpromptが止まるという。Codex CLIのsystem prompt自体が約27,000 tokensあるため、この組み合わせでは現実的な運用が難しかった。

Macで動いたのはllama.cppを使う経路だった。記事では--jinja、-np 1、-ctk q8_0、-ctv q8_0、direct GGUF pathを指定する-mなど、各flagがなぜ必要かまで説明している。さらにCodex CLI profileではweb_search = "disabled"が必要だった。llama.cppがweb_search_preview tool typeを受け付けないためだ。一方GB10ではvLLMがPyTorch ABI mismatchで失敗し、代わりにOllama v0.20.5がSSH tunnel経由で動作した。

この投稿が響いた理由は、local coding agentという抽象論を、壊れる箇所と動く組み合わせの両方を含む具体的なrecipeに落とし込んだからだ。HNのcommentでもGemma 4 26Bをweight classの外れ値とみなす声があったが、より重要なのは運用面の教訓だろう。local agent stackはもう無視できない水準に来ている一方、成果はserving detailに大きく左右される。local-firstなcoding workflowを考えるチームにとって、こうした現場レポートはleaderboardよりずっと参考になる。

Hacker Newsが注目したGemma 4 local-agent実験: Codex CLIをcloud外で動かす現実的レシピ

Related Articles

Gemma 4 GGUF を再取得すべきか、Redditが注目した llama.cpp の修正

Reddit が見た Gemma 4 の llama.cpp 安定化、ただし運用上の注意は残る

LocalLLaMAベンチマーク: Gemma 4のspeculative decodingで平均29%高速化を報告

Comments (0)

Leave a Comment

Related Articles

Gemma 4 GGUF を再取得すべきか、Redditが注目した llama.cpp の修正
LLM Reddit Apr 9, 2026 1 min read

Reddit が見た Gemma 4 の llama.cpp 安定化、ただし運用上の注意は残る
LLM Reddit Apr 9, 2026 1 min read

LocalLLaMAベンチマーク: Gemma 4のspeculative decodingで平均29%高速化を報告
LLM Reddit Apr 13, 2026 1 min read