LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味
Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →
2026年3月23日にr/LocalLLaMAへ投稿された記事は、376 upvotesと61 commentsを集め、その日のarchitecture threadの中心になった。David Noel NgのRYS IIは、慎重に選んだmiddle transformer layerを繰り返すことで、model weightを変えずに性能を押し上げられるのかをQwen3.5-27Bで再検証している。
この話には二つのフックがある。第一は科学的主張だ。EnglishとChineseの入力でhidden stateを比較すると、middle layerでは表面言語よりcontentが強く揃う傾向が見え、“universal language”あるいはformat-agnostic reasoning spaceの手がかりだと解釈している。第二は実務面の結果だ。全探索、3,024のbeam-search candidate、さらに2 million configurationsを順位付けしたsurrogate modelまで動員したにもかかわらず、最終的な勝者はcontiguousなmid-stack repeatだった。共有validation setではlayer 33単独の反復だけで、1.5625% overheadでEQ gainの大半を獲得し、31-33、30-34、26-33の大きなblockは追加改善を出す一方で、逓減もはっきりした。
- NgはHuggingFaceにS(+1 layer)、M(+3)、L(+5)、XL(+8)のFP8 model variantを公開した。
- 記事によれば、sparse repeat、multi-block beam search、surrogate-ranked candidateを試しても、Pareto frontierは結局contiguous block側に残った。
- 将来的なExLlama v3形式では、duplicated layerをpointerとして持ち、VRAM増加をcomputeとKV cache中心に抑える案も示されている。
LocalLLaMAが強く反応したのは、open-weightユーザーに直接関係するからだ。高価なfull fine-tuningやclosed APIに頼らず、測定可能な改善を狙える道筋を示している。ただし記事は過剰に煽ってはいない。compositionは効くがgainはsublinearであり、最大のraw scoreよりefficient frontierの方が重要だと明確に述べている。
原典: RYS II blog post。コミュニティ議論: LocalLLaMA.
Related Articles
r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。
公開から数週間が経ち、r/LocalLLaMA では Qwen3.5 に対して 1 つの既定値ではなく、task ごとの sampler と reasoning budget を使い分ける方向へ知見が集まりつつある。
Comments (0)
No comments yet. Be the first to comment!