LocalLLaMA, true 1-bit LLM용 XOR patch 방식 "Bankai" 실험에 주목

LocalLLaMA가 본 핵심 포인트

2026년 4월 2일 LocalLLaMA에서 올라온 Bankai thread는 true 1-bit LLM을 위한 post-training adaptation이라는 드문 주장을 담고 있었다. 크롤링 시점 기준 이 Reddit thread는 208점, 105개 댓글을 기록했다. 작성자는 PrismML의 Bonsai 8B 를 바탕으로, behavior 차이를 sparse XOR mask 로 표현해 binary weights를 직접 뒤집는 방식을 제안했다. LoRA나 fine-tuning처럼 continuous weight delta를 두는 것이 아니라, row 단위 bit flip을 축적해 patch를 만드는 방식이다.

repo와 paper가 강조하는 전제는 분명하다. true 1-bit model은 각 weight가 한 비트뿐이기 때문에, 기존 adaptation 수단인 LoRA, 일반 fine-tuning, QAT가 그대로 적용되지 않는다. 반면 bit의 차이는 XOR로 표현할 수 있다. Bankai patch는 어떤 layer의 어떤 projection row를 뒤집을지 목록으로 저장하며, 실험에 쓰인 patch는 840 bytes 에서 1.1 KB 수준이다. 일반 adapter와 달리 inference 때 추가 matmul을 넣지 않고, 적용도 제거도 같은 XOR 연산으로 끝난다.

실험에서 나온 숫자

Bankai는 Bonsai 8B를 대상으로 여덟 개 실험을 수행했다고 설명한다. 가장 눈에 띄는 결과는 두 가지다. 첫째, random bit flips에 surprisingly robust 했다는 점이다. README에 따르면 MLP weight에 500K random flips 를 가해도 perplexity 변화가 1% 미만이었다. 둘째, scale factor를 이용한 targeting은 random sampling보다 3.88배 더 큰 behavioral impact를 냈다. 즉 binary model에서도 모든 bit가 같은 중요도를 가지지 않으며, search space를 줄일 수 있다는 뜻이다.

generalization 실험도 흥미롭다. 적은 probe로 학습한 patch는 특정 prompt를 외우는 경향이 강했지만, 다양한 60개 probe로 만든 generalized patch는 held-out 문제 17개 중 4개를 수정 하고, 이미 맞히던 13개에는 zero breakage 를 보였다고 한다. README 예시로는 patch search가 본 적 없는 prompt에서 d/dx [x^7 + x] 를 올바르게 풀고, 113이 prime인지 를 맞히는 사례가 제시된다. 또 50개 GSM8K word problem safety check에서는 성능 저하가 없었다고 보고한다.

왜 true 1-bit model에서만 성립하는가

작성자는 이 접근이 BitNet 같은 ternary 1.58-bit model에는 바로 확장되지 않는다고 선을 긋는다. ternary encoding에서는 XOR 결과가 유효한 state를 벗어날 수 있기 때문이다. Bankai가 의미를 가지는 이유는 Bonsai가 말 그대로 true binary weight를 쓰는 드문 사례이기 때문이다. paper는 Bonsai 8B가 8.2B parameters 를 1.15 GB 에 담고, Apple Silicon에서도 재현 가능한 실험 환경을 제공한다고 설명한다.

이 아이디어가 주목받는 이유는 deployment 모델 자체를 바꿀 가능성 때문이다. 수십 MB에서 수백 MB짜리 adapter 대신 1 KB 안팎 patch를 library처럼 쌓을 수 있다면, domain-specific behavior switch를 on-device에서 거의 즉시 교체하는 그림이 가능해진다. 아직 early-stage research이고 row-level flip의 거칠기나 benchmark harness 한계도 분명하지만, “1-bit model은 배포 후 손댈 수 없다”는 전제를 흔들었다는 점만으로도 의미가 있다.

출처: Bankai GitHub repo, Bankai paper, LocalLLaMA thread

LocalLLaMA, true 1-bit LLM용 XOR patch 방식 "Bankai" 실험에 주목

LocalLLaMA가 본 핵심 포인트

실험에서 나온 숫자

왜 true 1-bit model에서만 성립하는가

Related Articles

LocalLLaMA에서 화제가 된 Qwen3.5 27B의 현실적인 성능 균형

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

Copilot이 PR 설명에 홍보 문구를 넣어 HN에서 repo safety 논쟁

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA에서 화제가 된 Qwen3.5 27B의 현실적인 성능 균형
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

Copilot이 PR 설명에 홍보 문구를 넣어 HN에서 repo safety 논쟁