Hacker Newsが注目したGemma 4 local-agent実験: Codex CLIをcloud外で動かす現実的レシピ
Original: I ran Gemma 4 as a local model in Codex CLI View original →
Hacker Newsで注目を集めたDaniel VaughanのApril 2026の記事は、Gemma 4をlocal modelとしてCodex CLIに接続し、日常的なagentic codingに耐えるかを試した実験記録だ。論点は単なるbenchmarkではない。Codex CLIの価値は、modelがfileを読み、正しくtool callを出し、codeを書き、長いpromptでも壊れずに動くことにある。cost、privacy、resilienceの面でlocal deploymentは魅力的だが、それをagentとして成立させるにはtool callingの安定性が必要になる。
検証は二つの環境で行われた。ひとつは24 GB M4 Pro MacBook Proで、Gemma 4 26B MoEをllama.cpp経由で動かす構成。もうひとつはDell Pro Max GB10で31B Dense variantを動かす構成だ。Apple Silicon側では、最初に試したOllamaがすぐに限界に当たった。v0.20.3ではtool-call responseが誤ったfieldに入るstreaming bugがあり、さらにFlash Attention freezeで長いpromptが止まるという。Codex CLIのsystem prompt自体が約27,000 tokensあるため、この組み合わせでは現実的な運用が難しかった。
Macで動いたのはllama.cppを使う経路だった。記事では--jinja、-np 1、-ctk q8_0、-ctv q8_0、direct GGUF pathを指定する-mなど、各flagがなぜ必要かまで説明している。さらにCodex CLI profileではweb_search = "disabled"が必要だった。llama.cppがweb_search_preview tool typeを受け付けないためだ。一方GB10ではvLLMがPyTorch ABI mismatchで失敗し、代わりにOllama v0.20.5がSSH tunnel経由で動作した。
この投稿が響いた理由は、local coding agentという抽象論を、壊れる箇所と動く組み合わせの両方を含む具体的なrecipeに落とし込んだからだ。HNのcommentでもGemma 4 26Bをweight classの外れ値とみなす声があったが、より重要なのは運用面の教訓だろう。local agent stackはもう無視できない水準に来ている一方、成果はserving detailに大きく左右される。local-firstなcoding workflowを考えるチームにとって、こうした現場レポートはleaderboardよりずっと参考になる。
Related Articles
LocalLLaMAの投稿は、最近の llama.cpp 修正により Gemma 4 GGUF を再取得する価値があると指摘し、ローカル推論利用者が見るべき変更点をまとめている。
LocalLLaMA の高スコア post は、llama.cpp PR #21534 の merge によって Gemma 4 の current master support が実用的な安定域に入ったと見た。ただし焦点は fix そのものより tokenizer correctness、chat template、memory flag、そして CUDA 13.2 を避けるべきだという運用条件にあった。
詳細な`r/LocalLLaMA`投稿は、`Gemma 4 31B`に`Gemma 4 E2B`のdraft modelを組み合わせた`llama.cpp`構成で平均スループットが`57.17 t/s`から`73.73 t/s`へ伸びたと報告した。
Comments (0)
No comments yet. Be the first to comment!