LocalLLaMA、true 1-bit LLM向けXOR patch手法「Bankai」に注目
Original: Bankai (卍解) — the first post-training adaptation method for true 1-bit LLMs. View original →
LocalLLaMAで何が注目されたのか
2026年4月2日の LocalLLaMA スレッドで注目を集めた Bankai は、true 1-bit LLM を deployment 後に調整するための実験的手法だ。クロール時点でこの投稿は 208ポイント、105コメント。特徴は、LoRA や通常の fine-tuning を使わず、binary weight の差分そのものを XOR patch として扱う点にある。つまり behavior の違いを sparse mask として表現し、そのmaskをモデルへ直接適用するという発想だ。
repo と paper が前提としているのは、true 1-bit model では既存の adaptation 手法がそのまま使えないということだ。continuous weight や gradient を前提にした LoRA、fine-tuning、QAT は単一bit weight では成立しにくい。Bankai は、weight が bit であるなら behavioral diff も bitwise XOR で表せると考える。現在の実装では row 単位で bit を反転し、patch は layer・projection・row の一覧として保存される。公開されている patch size はおよそ 840 bytes から 1.1 KB に収まる。
どんな結果が出ているのか
評価対象は Bonsai 8B で、paper では true 1-bit・8.2B parameter の language model と説明されている。まず興味深いのは、model が random perturbation にかなり強いことだ。README では MLP weights に 500K random flips を入れても perplexity 変化は 1% 未満だったとされる。次に、scale factor を使った targeting は random search より 3.88倍 大きい behavioral impact を出したという。binary model でも重要なbit領域に偏りがあり、search を効率化できることを示す結果だ。
さらに重要なのは generalization の実験である。少数probeで作った patch は memorize しやすかった一方、60個の多様な probe を使った search では held-out prompt への generalization が改善したと報告されている。具体的には、base model が間違えた 17 問のうち 4問を修正 し、既に正解していた 13 問は 1問も壊さなかった。README の例では、search が見ていない導関数問題や素数判定問題を patch 後に正答できるケースが示されている。50問の GSM8K safety check でも performance degradation は見られなかったとする。
なぜ面白いのか
この仕組みは true binary model に依存する。BitNet のような ternary 1.58-bit model では XOR の結果が無効 state を生む可能性があり、同じ方法はそのまま適用できない。だが、その制約があるからこそ意味もある。もし true 1-bit model が今後増えるなら、capability patch を kilobyte 単位で配布し、ほぼ即時に差し替える deployment model が現実味を帯びるからだ。per-token の追加計算がなく、apply/remove も同じ XOR で済むなら、adapter 系とはまったく異なる運用像になる。
もちろん現状は early-stage research で、row-level flip の粗さや benchmark harness の限界も明記されている。それでも、「true 1-bit model は出荷後ほぼ固定」という前提に疑問を投げかけた点で、LocalLLaMA が強く反応したのは理解しやすい。
Related Articles
r/LocalLLaMAで注目を集めたPrismMLの1-bit Bonsaiは、8.2Bパラメータのモデルを1.15GBに収めるend-to-end 1-bit設計を前面に出している。焦点は単なる圧縮ではなく、オンデバイスでのthroughputとenergy efficiencyの実用化だ。
Hacker Newsに投稿されたPrism MLの1-Bit Bonsaiは、1.15GBの8B modelからiPhone級の1.7B modelまでを掲げ、1-bit weightでedge inference economicsを作り替えようとしている。焦点はparameter countではなく、intelligence densityとhardware fitにある。
LocalLLaMAで注目されたLFM2.5-350Mは、小さな汎用modelではなく、tool useとstructured outputに特化した350M edge modelとして受け止められた。Liquid AIはpretrainingを10Tから28T tokenへ拡張し、large-scale RLを追加したと説明している。
Comments (0)
No comments yet. Be the first to comment!