Gemma 4 26B A4Bは245K contextでも実用になるのか

コミュニティが見たGemma 4の長いcontext

2026年4月12日時点でr/LocalLLaMAの161 score、71 commentsを集めたこの投稿は、Gemma 4 26B A4Bを262,144 context window近くまで押し込んだstress testを共有している。投稿者はReddit posts、documentation、llama.cppのraw filesを大量に入れてVRAM使用量と応答の一貫性を確認し、245,283 / 262,144、つまり約94%の地点でも特定ユーザーの発言を正しく取り出せたと述べている。

この投稿が面白いのは、成功例だけでなくfailure modeも書いているところだ。投稿者によれば、100K contextを超えるあたりからmodelが自己問答のloopに入り、結論を返さずに考え続けることがあった。そこでtemperatureを下げ、repeat penaltyを1.17から1.18に上げると安定性が改善し、巨大なcontextから関連発言を2秒から5秒ほどで引き戻せるようになったという。

共有された実用設定

context sizeは262144、GPU layersは99。
top_p 0.95、top_k 40、min_p 0.05、repeat_penalty 1.17を使用。
batchとmicrobatchは512、cache RAMは2048 MBに設定。
当時の最新 llama.cpp と最新のUnsloth GGUFを使っていたと記している。

どう受け止めるべきか

もちろんこれは再現性まで確認されたformal benchmarkではなく、個人環境でのcommunity reportにすぎない。それでも価値があるのは、long-context marketingでは見えない実務上の情報が詰まっているからだ。どこでbehaviorが崩れ始めるのか、どのtuning knobがloopを減らしたのか、最新buildがどれだけ重要か。こうした実装寄りのメモは、派手なheadline context数よりむしろ役に立つ。

原文: r/LocalLLaMA post.

Gemma 4 26B A4Bは245K contextでも実用になるのか

コミュニティが見たGemma 4の長いcontext

共有された実用設定

どう受け止めるべきか

Related Articles

13年前のXeonでGemma 4 26B、GPUなし5 tok/s

Gemma 4 GGUF を再取得すべきか、Redditが注目した llama.cpp の修正

Gemma 4 の早計な評価は危険？ LocalLLaMA で llama.cpp 修正をめぐる議論

Related Articles

13年前のXeonでGemma 4 26B、GPUなし5 tok/s
HNでの論点は「古い機械でも動いた」だけではなかった。ik_llama.cppへの修正により、dual Ivy Bridge Xeon上でGemma 4 26B-A4BをCPU-only実行し、local inferenceのコストと制御権が議論された。

Gemma 4 GGUF を再取得すべきか、Redditが注目した llama.cpp の修正
LLM Reddit Apr 9, 2026 1 min read

Gemma 4 の早計な評価は危険？ LocalLLaMA で llama.cpp 修正をめぐる議論
LLM Reddit Apr 5, 2026 1 min read