r/LocalLLaMA: Heretic 1.2 출시, 4-bit 경량화와 MPOA 지원으로 실험 효율 강화
Original: Heretic 1.2 released: 70% lower VRAM usage with quantization, Magnitude-Preserving Orthogonal Ablation ("derestriction"), broad VL model support, session resumption, and more View original →
커뮤니티에서 나온 발표
r/LocalLLaMA에서 Heretic 1.2 릴리스 글이 높은 추천을 받았습니다. 작성자는 Heretic을 LLM abliteration(일명 derestriction) 작업용 도구로 소개하며, 초기 공개 이후 커뮤니티가 빠르게 확장됐다고 설명했습니다. 핵심은 "같은 실험을 더 적은 자원으로 반복"할 수 있게 만드는 업데이트입니다.
게시글이 제시한 주요 변경점
가장 큰 변화는 PEFT 기반 LoRA 엔진과 bitsandbytes 4-bit 로딩입니다. 작성자 설명 기준으로, 처리 단계 VRAM 사용량을 최대 70%까지 낮출 수 있다고 주장합니다. 다만 최종 내보내기(export)에서는 원본 모델을 시스템 RAM에 다시 로드해 full precision 결과를 얻는 방식을 병행한다고 적었습니다.
두 번째는 MPOA (Magnitude-Preserving Orthogonal Ablation) 지원입니다. 설정값으로 orthogonalize_direction=true, row_normalization=full을 제안했고, Optuna 기반 가중치 탐색을 통해 일부 벤치마크 점수가 개선됐다는 사례도 함께 제시했습니다. 세 번째는 VL 모델 처리 확장으로, 이미지 인코더는 유지하고 텍스트 디코더 transformer 부분만 가공한다는 점을 명시했습니다.
운영 측면에서는 자동 진행상태 저장과 재개(resume) 기능이 추가돼, 장시간 실험 중 중단/재시작 리스크를 줄였다고 합니다. 커뮤니티 댓글에서도 "로컬 환경에서 반복 실험이 더 쉬워졌다"는 반응이 확인됩니다.
해석과 주의점
- 로컬 LLM 실험자는 동일 하드웨어로 더 많은 ablation 시도를 돌릴 가능성이 커졌습니다.
- 4-bit 경량 로딩 + full precision export 조합은 속도와 결과 품질의 절충점으로 보입니다.
- 한편, alignment 완화 목적 도구인 만큼 정책/법적 리스크 검토 없이 배포하기에는 위험할 수 있습니다.
이번 글은 "새 모델" 발표가 아니라, community tooling이 얼마나 빠르게 성숙하는지 보여준 사례입니다. Local inference 생태계에서는 모델 자체 못지않게 실험 자동화와 재현성 도구가 경쟁력을 만든다는 점을 다시 확인시켰습니다.
Sources: Reddit post, Heretic GitHub
Related Articles
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
LocalLLaMA가 반응한 이유는 단순한 수치 비교가 아니었다. 많은 로컬 추론 사용자가 사실상 상식처럼 받아들이던 규칙을 정면으로 건드렸고, 특히 Gemma 쪽에서 모델별 차이가 크다는 점을 보여 줬기 때문이다. 2026년 4월 25일 크롤링 시점 기준 스레드는 324점, 58댓글이었다.
Comments (0)
No comments yet. Be the first to comment!