LocalLLaMA, true 1-bit LLM용 XOR patch 방식 "Bankai" 실험에 주목
Original: Bankai (卍解) — the first post-training adaptation method for true 1-bit LLMs. View original →
LocalLLaMA가 본 핵심 포인트
2026년 4월 2일 LocalLLaMA에서 올라온 Bankai thread는 true 1-bit LLM을 위한 post-training adaptation이라는 드문 주장을 담고 있었다. 크롤링 시점 기준 이 Reddit thread는 208점, 105개 댓글을 기록했다. 작성자는 PrismML의 Bonsai 8B 를 바탕으로, behavior 차이를 sparse XOR mask 로 표현해 binary weights를 직접 뒤집는 방식을 제안했다. LoRA나 fine-tuning처럼 continuous weight delta를 두는 것이 아니라, row 단위 bit flip을 축적해 patch를 만드는 방식이다.
repo와 paper가 강조하는 전제는 분명하다. true 1-bit model은 각 weight가 한 비트뿐이기 때문에, 기존 adaptation 수단인 LoRA, 일반 fine-tuning, QAT가 그대로 적용되지 않는다. 반면 bit의 차이는 XOR로 표현할 수 있다. Bankai patch는 어떤 layer의 어떤 projection row를 뒤집을지 목록으로 저장하며, 실험에 쓰인 patch는 840 bytes 에서 1.1 KB 수준이다. 일반 adapter와 달리 inference 때 추가 matmul을 넣지 않고, 적용도 제거도 같은 XOR 연산으로 끝난다.
실험에서 나온 숫자
Bankai는 Bonsai 8B를 대상으로 여덟 개 실험을 수행했다고 설명한다. 가장 눈에 띄는 결과는 두 가지다. 첫째, random bit flips에 surprisingly robust 했다는 점이다. README에 따르면 MLP weight에 500K random flips 를 가해도 perplexity 변화가 1% 미만이었다. 둘째, scale factor를 이용한 targeting은 random sampling보다 3.88배 더 큰 behavioral impact를 냈다. 즉 binary model에서도 모든 bit가 같은 중요도를 가지지 않으며, search space를 줄일 수 있다는 뜻이다.
generalization 실험도 흥미롭다. 적은 probe로 학습한 patch는 특정 prompt를 외우는 경향이 강했지만, 다양한 60개 probe로 만든 generalized patch는 held-out 문제 17개 중 4개를 수정 하고, 이미 맞히던 13개에는 zero breakage 를 보였다고 한다. README 예시로는 patch search가 본 적 없는 prompt에서 d/dx [x^7 + x] 를 올바르게 풀고, 113이 prime인지 를 맞히는 사례가 제시된다. 또 50개 GSM8K word problem safety check에서는 성능 저하가 없었다고 보고한다.
왜 true 1-bit model에서만 성립하는가
작성자는 이 접근이 BitNet 같은 ternary 1.58-bit model에는 바로 확장되지 않는다고 선을 긋는다. ternary encoding에서는 XOR 결과가 유효한 state를 벗어날 수 있기 때문이다. Bankai가 의미를 가지는 이유는 Bonsai가 말 그대로 true binary weight를 쓰는 드문 사례이기 때문이다. paper는 Bonsai 8B가 8.2B parameters 를 1.15 GB 에 담고, Apple Silicon에서도 재현 가능한 실험 환경을 제공한다고 설명한다.
이 아이디어가 주목받는 이유는 deployment 모델 자체를 바꿀 가능성 때문이다. 수십 MB에서 수백 MB짜리 adapter 대신 1 KB 안팎 patch를 library처럼 쌓을 수 있다면, domain-specific behavior switch를 on-device에서 거의 즉시 교체하는 그림이 가능해진다. 아직 early-stage research이고 row-level flip의 거칠기나 benchmark harness 한계도 분명하지만, “1-bit model은 배포 후 손댈 수 없다”는 전제를 흔들었다는 점만으로도 의미가 있다.
Related Articles
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.
2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.
Zach Manson의 사례를 계기로 HN에서 Copilot이 PR description 같은 repo metadata에 marketing copy를 삽입해도 되는지, provenance와 approval boundary를 어디에 둘지 논쟁이 확산됐다.
Comments (0)
No comments yet. Be the first to comment!