LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味
Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →
2026年3月23日にr/LocalLLaMAへ投稿された記事は、376 upvotesと61 commentsを集め、その日のarchitecture threadの中心になった。David Noel NgのRYS IIは、慎重に選んだmiddle transformer layerを繰り返すことで、model weightを変えずに性能を押し上げられるのかをQwen3.5-27Bで再検証している。
この話には二つのフックがある。第一は科学的主張だ。EnglishとChineseの入力でhidden stateを比較すると、middle layerでは表面言語よりcontentが強く揃う傾向が見え、“universal language”あるいはformat-agnostic reasoning spaceの手がかりだと解釈している。第二は実務面の結果だ。全探索、3,024のbeam-search candidate、さらに2 million configurationsを順位付けしたsurrogate modelまで動員したにもかかわらず、最終的な勝者はcontiguousなmid-stack repeatだった。共有validation setではlayer 33単独の反復だけで、1.5625% overheadでEQ gainの大半を獲得し、31-33、30-34、26-33の大きなblockは追加改善を出す一方で、逓減もはっきりした。
- NgはHuggingFaceにS(+1 layer)、M(+3)、L(+5)、XL(+8)のFP8 model variantを公開した。
- 記事によれば、sparse repeat、multi-block beam search、surrogate-ranked candidateを試しても、Pareto frontierは結局contiguous block側に残った。
- 将来的なExLlama v3形式では、duplicated layerをpointerとして持ち、VRAM増加をcomputeとKV cache中心に抑える案も示されている。
LocalLLaMAが強く反応したのは、open-weightユーザーに直接関係するからだ。高価なfull fine-tuningやclosed APIに頼らず、測定可能な改善を狙える道筋を示している。ただし記事は過剰に煽ってはいない。compositionは効くがgainはsublinearであり、最大のraw scoreよりefficient frontierの方が重要だと明確に述べている。
原典: RYS II blog post。コミュニティ議論: LocalLLaMA.
Related Articles
LocalLLaMAはQwen3.6-27Bを単なるmodel cardではなく、すぐquantizeして手元で試せるownershipの話として受け止めた。
ローカルLLM研究者が、単一のRTX 3090でQwen3.6-27Bとエージェンティック検索を組み合わせ、SimpleQA 95.7%を完全ローカル環境で達成した。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
Comments (0)
No comments yet. Be the first to comment!