Gemma 4 26B A4Bは245K contextでも実用になるのか

Original: Gemma 4 26B A4B is still fully capable at 245283/262144 (94%) contex ! View original →

Read in other languages: 한국어English
LLM Apr 12, 2026 By Insights AI (Reddit) 1 min read Source

コミュニティが見たGemma 4の長いcontext

2026年4月12日時点でr/LocalLLaMAの161 score、71 commentsを集めたこの投稿は、Gemma 4 26B A4Bを262,144 context window近くまで押し込んだstress testを共有している。投稿者はReddit posts、documentation、llama.cppのraw filesを大量に入れてVRAM使用量と応答の一貫性を確認し、245,283 / 262,144、つまり約94%の地点でも特定ユーザーの発言を正しく取り出せたと述べている。

この投稿が面白いのは、成功例だけでなくfailure modeも書いているところだ。投稿者によれば、100K contextを超えるあたりからmodelが自己問答のloopに入り、結論を返さずに考え続けることがあった。そこでtemperatureを下げ、repeat penaltyを1.17から1.18に上げると安定性が改善し、巨大なcontextから関連発言を2秒から5秒ほどで引き戻せるようになったという。

共有された実用設定

  • context sizeは262144、GPU layersは99。
  • top_p 0.95、top_k 40、min_p 0.05、repeat_penalty 1.17を使用。
  • batchとmicrobatchは512、cache RAMは2048 MBに設定。
  • 当時の最新 llama.cpp と最新のUnsloth GGUFを使っていたと記している。

どう受け止めるべきか

もちろんこれは再現性まで確認されたformal benchmarkではなく、個人環境でのcommunity reportにすぎない。それでも価値があるのは、long-context marketingでは見えない実務上の情報が詰まっているからだ。どこでbehaviorが崩れ始めるのか、どのtuning knobがloopを減らしたのか、最新buildがどれだけ重要か。こうした実装寄りのメモは、派手なheadline context数よりむしろ役に立つ。

原文: r/LocalLLaMA post.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.