Covenant-72B, permissionless 분산 GPU 학습을 내세운 72B base model

r/LocalLLaMA에서 화제가 된 Covenant-72B는 모델 자체의 raw score보다도 학습 방식 때문에 주목받은 공개 사례다. 해당 글은 92점과 25개 댓글을 기록했고, 제목 그대로 decentralized permissionless GPU nodes 위에서 학습된 가장 큰 모델이라고 소개했다. Hugging Face model card에 따르면 Covenant-72B는 72B parameters 규모의 language model이며, 1.1 trillion English tokens로 from scratch 학습됐다. 같은 문서는 이 모델을 가장 큰 permissionless collaboratively trained language model이라고 설명한다.

핵심 포인트는 참여 구조다. 모델 card는 20+ globally distributed participants가 Bittensor blockchain 위의 decentralized infrastructure를 통해 협업했다고 적고 있다. 여기에 technical report abstract는 기존의 globally distributed training 시도가 더 작은 규모이거나 whitelisted 참여 구조였다고 대비한다. Covenant-72B는 fully permissionless participation과 dynamic participation over the internet를 지원했고, 이 조합이 unprecedented scale에서 작동했음을 보여 주려 했다. 즉, 이번 공개의 의미는 단순히 또 하나의 70B급 open model이 아니라, non-whitelisted pre-training이 실제로 굴러갈 수 있는지에 대한 실험 결과에 더 가깝다.

아키텍처 정보도 비교적 명확하다. model card 기준으로 Covenant-72B는 80 layers, 64 attention heads, 8 KV heads, hidden size 8192 구성을 사용하며 Apache 2.0 license로 배포된다. 또 이 모델은 base model이고, 별도의 instruction-tuned variant인 Covenant-72B-Chat가 따로 존재한다. 이 점은 Reddit 댓글에서도 긍정적으로 받아들여졌다. 한 사용자는 Apache 2.0 license와 base-model positioning을 반겼다. 반면 다른 댓글은 raw performance가 state of the art는 아니라고 지적했다. 공개 토론의 초점이 성능 우위보다 접근 방식의 의미와 활용 가능성으로 갈린 셈이다.

학습 기법 측면에서는 SparseLoCo가 자주 언급된다. Reddit 글은 SparseLoCo가 DiLoCo 위에 구축됐고, synchronization frequency를 낮추는 구조라고 설명했다. 여기에 local AdamW, top-k sparsification, 2-bit quantization을 결합해 communication cost를 줄였다는 점이 강조됐다. SparseLoCo abstract에 따르면 이 방법은 1-3% sparsity 수준까지 통신을 줄이면서도 communication-constrained setting에서는 full-precision DiLoCo보다 더 나은 결과를 보였다고 한다. 이번 사례에서 중요한 것은 이런 통신 절감 기법이 permissionless internet-scale participation과 연결됐다는 점이다. 분산 참여자가 계속 바뀌고 네트워크 상태가 균일하지 않은 환경에서는 계산량보다 통신량이 병목이 되기 쉽기 때문이다.

성능 평가는 과장할 필요가 없다. model card에는 INTELLECT-1, Psyche Consilience, LLM360 K2, LLaMA-2-70B와의 benchmark 비교가 포함돼 있지만, 공개된 노트만으로 특정 리더보드 우위를 단정할 근거는 없다. 오히려 이번 공개가 던지는 메시지는 다른 곳에 있다. permissionless collaborative training이 72B 규모에서도 성립할 수 있고, whitelisted consortium 없이도 base model pre-training을 조직할 수 있다는 점이다. Local LLM 커뮤니티 관점에서는 모델 카드의 숫자만큼이나 라이선스, base vs Chat 분리, 그리고 decentralized training stack의 재현 가능성이 중요하다. Covenant-72B는 바로 그 논점을 중심에 놓은 프로젝트로 읽는 편이 정확하다.

Covenant-72B, permissionless 분산 GPU 학습을 내세운 72B base model

Related Articles

Browser Harness에 HN 반응, "브라우저 도구를 중간에 스스로 고친다"

IBM Granite 4.1, 8B로 32B MoE급 겨냥… HN 논점은 tool calling

ERNIE 5.1 Preview, 글로벌 13위… 사전학습 비용은 비교 모델의 6%까지 압축

Comments (0)

Leave a Comment

Related Articles

Browser Harness에 HN 반응, "브라우저 도구를 중간에 스스로 고친다"

IBM Granite 4.1, 8B로 32B MoE급 겨냥… HN 논점은 tool calling

ERNIE 5.1 Preview, 글로벌 13위… 사전학습 비용은 비교 모델의 6%까지 압축
중요한 이유는 리더보드 순위가 더 싼 학습비와 함께 나왔다는 점이다. Baidu는 ERNIE 5.1 Preview가 LMArena Text에서 글로벌 13위, 중국 랩 1위를 기록했고, 비슷한 모델 대비 사전학습 비용은 약 6% 수준이라고 적었다.