LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味

2026年3月23日にr/LocalLLaMAへ投稿された記事は、376 upvotesと61 commentsを集め、その日のarchitecture threadの中心になった。David Noel NgのRYS IIは、慎重に選んだmiddle transformer layerを繰り返すことで、model weightを変えずに性能を押し上げられるのかをQwen3.5-27Bで再検証している。

この話には二つのフックがある。第一は科学的主張だ。EnglishとChineseの入力でhidden stateを比較すると、middle layerでは表面言語よりcontentが強く揃う傾向が見え、“universal language”あるいはformat-agnostic reasoning spaceの手がかりだと解釈している。第二は実務面の結果だ。全探索、3,024のbeam-search candidate、さらに2 million configurationsを順位付けしたsurrogate modelまで動員したにもかかわらず、最終的な勝者はcontiguousなmid-stack repeatだった。共有validation setではlayer 33単独の反復だけで、1.5625% overheadでEQ gainの大半を獲得し、31-33、30-34、26-33の大きなblockは追加改善を出す一方で、逓減もはっきりした。

NgはHuggingFaceにS(+1 layer)、M(+3)、L(+5)、XL(+8)のFP8 model variantを公開した。
記事によれば、sparse repeat、multi-block beam search、surrogate-ranked candidateを試しても、Pareto frontierは結局contiguous block側に残った。
将来的なExLlama v3形式では、duplicated layerをpointerとして持ち、VRAM増加をcomputeとKV cache中心に抑える案も示されている。

LocalLLaMAが強く反応したのは、open-weightユーザーに直接関係するからだ。高価なfull fine-tuningやclosed APIに頼らず、測定可能な改善を狙える道筋を示している。ただし記事は過剰に煽ってはいない。compositionは効くがgainはsublinearであり、最大のraw scoreよりefficient frontierの方が重要だと明確に述べている。

原典: RYS II blog post。コミュニティ議論: LocalLLaMA.

LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味

Related Articles

Qwen3.6-27BでLocalLLaMA沸く、27B denseと262K context

RTX 3090一枚でSimpleQA 95.7%達成：Qwen3.6-27B＋エージェンティック検索

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-27BでLocalLLaMA沸く、27B denseと262K context
LLM Reddit Apr 23, 2026 1 min read

RTX 3090一枚でSimpleQA 95.7%達成：Qwen3.6-27B＋エージェンティック検索
LLM Reddit May 3, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。