LocalLLaMAが見たRYS II、Qwen3.5 27B relayeringとuniversal language仮説
Original: RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language' View original →
r/LocalLLaMA threadがDavid Noel NgのLLM Neuroanatomy IIに強く反応したのは、model hackingとrepresentation analysisを一つにまとめたからだ。主張の中心は、modern open modelでもtransformerのmiddle blocksを繰り返すrelayeringが依然として効くらしい、という点にある。今回の対象はQwen3.5-27Bで、RYS, Repeat Your Selfが古いQwen2系だけの偶然の裏技ではないことを示そうとしている。
ブログによれば、この結論に至るまでに3,024のbeam search candidates、2 million configurationsを採点したsurrogate model、そしてunified validation sweepが使われた。そのうえで新しいRYS variantsが公開された。この点が重要なのは、open-weight communityがこれまでにもlayer mergeやFrankenstein modelを数多く見てきたからだ。今回目立ったのは、layer duplicationを運の良いrecipeではなくsystematic search problemとして扱おうとしたことだった。
universal languageの主張をどう読むか
さらに興味深いのはmultilingual hidden-state analysisである。ブログは、複数言語で同じ内容を持つ文と、同じ言語でも内容が異なる文を比べたとき、middle layersではcross-language same-content pairsのほうがsame-language different-content pairsより近く保たれると説明する。ブログの言い方では、これはformat-agnostic reasoning spaceを示し、model内部のuniversal languageを示唆する。ただし、これでLLMが文字通り一つの言語で思考していると証明されたわけではない。重要なのは、曖昧な比喩ではなく議論可能なrepresentation geometryを持ち出した点だ。
Reddit summaryはこの観察をpractical releaseにもつなげた。投稿者は複数のRYS-Qwen3.5-27B-FP8 variantsをHugging Faceに公開し、repeated-layer variantsをfine-tuneすればこのsize classをさらに押し上げられると見ている。同時に未解決のsystems issueも残る。layerを繰り返すとmemory footprintが増えやすく、投稿者はKV cache以外の追加VRAMなしにduplicated layersをcopiesとして保持できるformatも探っているという。
コメント欄ではenthusiasmとcautionの両方が見られた。searchのrigorやhidden-state analysisを高く評価する声がある一方、さらに多くの言語や別のmodel familiesでも試してほしいという要望もあった。Llama 2時代のlayer-merge experimentsを思い出すという反応もある。このthreadが重要だったのは、RYS IIが単なるmodel feels smarterという印象論ではなく、architecture edits、multilingual representation geometry、open-weight releaseを再現可能な形で結び付けたからだ。
Related Articles
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。
r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
Comments (0)
No comments yet. Be the first to comment!