Covenant-72B, permissionless 분산 GPU 학습을 내세운 72B base model

Original: 1Covenant/Covenant-72B: Largest model so far to be trained on decentralized permissionless GPU nodes View original →

Read in other languages: English日本語
LLM Mar 17, 2026 By Insights AI (Reddit) 2 min read Source

r/LocalLLaMA에서 화제가 된 Covenant-72B는 모델 자체의 raw score보다도 학습 방식 때문에 주목받은 공개 사례다. 해당 글은 92점과 25개 댓글을 기록했고, 제목 그대로 decentralized permissionless GPU nodes 위에서 학습된 가장 큰 모델이라고 소개했다. Hugging Face model card에 따르면 Covenant-72B는 72B parameters 규모의 language model이며, 1.1 trillion English tokens로 from scratch 학습됐다. 같은 문서는 이 모델을 가장 큰 permissionless collaboratively trained language model이라고 설명한다.

핵심 포인트는 참여 구조다. 모델 card는 20+ globally distributed participants가 Bittensor blockchain 위의 decentralized infrastructure를 통해 협업했다고 적고 있다. 여기에 technical report abstract는 기존의 globally distributed training 시도가 더 작은 규모이거나 whitelisted 참여 구조였다고 대비한다. Covenant-72B는 fully permissionless participation과 dynamic participation over the internet를 지원했고, 이 조합이 unprecedented scale에서 작동했음을 보여 주려 했다. 즉, 이번 공개의 의미는 단순히 또 하나의 70B급 open model이 아니라, non-whitelisted pre-training이 실제로 굴러갈 수 있는지에 대한 실험 결과에 더 가깝다.

아키텍처 정보도 비교적 명확하다. model card 기준으로 Covenant-72B는 80 layers, 64 attention heads, 8 KV heads, hidden size 8192 구성을 사용하며 Apache 2.0 license로 배포된다. 또 이 모델은 base model이고, 별도의 instruction-tuned variant인 Covenant-72B-Chat가 따로 존재한다. 이 점은 Reddit 댓글에서도 긍정적으로 받아들여졌다. 한 사용자는 Apache 2.0 license와 base-model positioning을 반겼다. 반면 다른 댓글은 raw performance가 state of the art는 아니라고 지적했다. 공개 토론의 초점이 성능 우위보다 접근 방식의 의미와 활용 가능성으로 갈린 셈이다.

학습 기법 측면에서는 SparseLoCo가 자주 언급된다. Reddit 글은 SparseLoCo가 DiLoCo 위에 구축됐고, synchronization frequency를 낮추는 구조라고 설명했다. 여기에 local AdamW, top-k sparsification, 2-bit quantization을 결합해 communication cost를 줄였다는 점이 강조됐다. SparseLoCo abstract에 따르면 이 방법은 1-3% sparsity 수준까지 통신을 줄이면서도 communication-constrained setting에서는 full-precision DiLoCo보다 더 나은 결과를 보였다고 한다. 이번 사례에서 중요한 것은 이런 통신 절감 기법이 permissionless internet-scale participation과 연결됐다는 점이다. 분산 참여자가 계속 바뀌고 네트워크 상태가 균일하지 않은 환경에서는 계산량보다 통신량이 병목이 되기 쉽기 때문이다.

성능 평가는 과장할 필요가 없다. model card에는 INTELLECT-1, Psyche Consilience, LLM360 K2, LLaMA-2-70B와의 benchmark 비교가 포함돼 있지만, 공개된 노트만으로 특정 리더보드 우위를 단정할 근거는 없다. 오히려 이번 공개가 던지는 메시지는 다른 곳에 있다. permissionless collaborative training이 72B 규모에서도 성립할 수 있고, whitelisted consortium 없이도 base model pre-training을 조직할 수 있다는 점이다. Local LLM 커뮤니티 관점에서는 모델 카드의 숫자만큼이나 라이선스, base vs Chat 분리, 그리고 decentralized training stack의 재현 가능성이 중요하다. Covenant-72B는 바로 그 논점을 중심에 놓은 프로젝트로 읽는 편이 정확하다.

Share: Long

Related Articles

LLM Reddit 1d ago 2 min read

3월 15일 LocalLLaMA에서 높은 반응을 얻은 Nemotron license thread는 model release에서 weights만큼 중요한 것이 license wording임을 다시 보여 줬다. 공식 NVIDIA Nemotron Model License와 이전 Open Model License를 비교하면, community가 주목한 포인트는 예전 guardrail termination clause와 Trustworthy AI 참조가 사라지고, 대신 NOTICE 중심의 attribution 구조가 더 전면으로 나온 점이었다.

LLM Reddit 1d ago 1 min read

LocalLLaMA에서 확산된 GreenBoost는 limited vRAM 문제를 우회하려는 experimental Linux kernel module이다. 2026년 3월 14일 Phoronix 보도에 따르면 이 GPLv2 프로젝트는 kernel module과 CUDA shim을 결합해, 큰 allocation을 on-card vRAM 밖의 pinned system RAM과 NVMe tier로 넘기면서도 CUDA application 수정 없이 더 큰 LLM workload를 돌리는 것을 목표로 한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.