Dante-2B, English-first fine-tune 대신 Italian-first 설계를 제안
Original: [P] Dante-2B: I'm training a 2.1B bilingual fully open Italian/English LLM from scratch on 2×H200. Phase 1 done — here's what I've built. View original →
Italian을 뒤로 미루지 않겠다는 소형 open model 실험
2026-04-05에 올라온 r/MachineLearning 글에서 Dante-2B 개발자는 English-first fine-tune 관행을 정면으로 비판하며, Italian을 처음부터 중심에 둔 2.1B parameter bilingual LLM을 공개 준비 중이라고 설명했다. 검토 시점 기준으로 이 글은 54 score와 16 comments를 기록했다. 핵심 문제 제기는 분명하다. 많은 open model이 Italian을 기본 설계 대상이 아니라 사후 보정 대상으로 다루기 때문에 tokenization과 morphology에서 불리해지고, 결국 context efficiency와 generation 품질이 함께 희생된다는 것이다.
게시글에 따르면 Dante-2B는 random initialization에서 시작한 decoder-only dense transformer다. 구조는 LLaMA-style GQA, SwiGLU FFN, RMSNorm, RoPE 조합이고, d_model=2560, 28 layers, d_head=128, 20 query heads와 4 KV heads를 쓴다. 가장 눈에 띄는 요소는 tokenizer다. 개발자는 Italian apostrophe contraction과 accented character를 더 자연스럽게 다루기 위해 Italian + English + code에 맞춘 custom 64K BPE tokenizer를 만들었다고 적었다. 예시로 l'intelligenza 같은 표현이 English-centric tokenizer에서 불필요하게 여러 token으로 쪼개지는 문제를 지적했다.
- 학습 corpus는 약 300B tokens 규모로 설명되며, FineWeb-2 IT, FineWeb-Edu, Italian public domain literature 171K books, legal/parliamentary text, Wikipedia, StarCoderData가 언급됐다.
- Phase 1은
seq_len 2048에서 100B tokens를 처리했고, DeepSpeed ZeRO-2,torch.compile,torchaoFP8 조합으로 2× H200에서 약 16일이 걸렸다고 한다. - 작성자는 이 구간에서 NaN이나 OOM 없이 대략 28% MFU를 유지했다고 주장했고, 현재는 4096 context를 목표로 20B tokens 규모의 Phase 2를 진행 중이라고 밝혔다.
이 프로젝트가 흥미로운 이유는 단순히 또 하나의 open LLM이 아니라, language-specific tokenizer와 pretraining recipe가 실제 지역 언어 품질에 얼마나 큰 차이를 만드는지 정면으로 실험하고 있기 때문이다. 댓글에서도 관심은 비슷한 지점에 모였다. 한 commenter는 multilingual setup에서 tokenizer가 가장 조용히 실패하는 지점이라고 평가했고, 다른 commenter는 corpus licensing을 어떻게 정리했는지 early stage부터 pressure test해야 한다고 지적했다. 즉 커뮤니티는 “Italian에 더 잘 맞는 model인가” 못지않게 “release-ready provenance를 갖출 수 있는가”를 보고 있다.
물론 아직은 self-reported progress update 단계다. 공개된 weights, model card, 독립 benchmark 결과는 아직 없고, 작성자도 GPT-4 수준 reasoning을 기대하라는 식의 과장은 하지 않았다. 그 대신 작은 cluster로도 특정 언어에 더 정직한 foundation model을 만들 수 있는지 보여주겠다는 방향을 제시했다는 점이 이 글의 실제 가치다. 만약 후속 HuggingFace release와 community benchmark가 뒤따른다면, Dante-2B는 “작지만 local language에 최적화된 model”의 흥미로운 사례가 될 수 있다.
Source link: Reddit thread.
Related Articles
Hacker News에 오른 Nanocode는 tokenizer training, pretraining, synthetic data generation, agentic SFT, DPO를 pure JAX와 TPU workflow로 묶어 Claude Code 스타일 coding model을 재현하려는 end-to-end open project다.
Hacker News의 Show HN 글이 8.7M 파라미터, 60K 합성 대화 데이터셋, Colab 노트북을 갖춘 GuppyLM을 조명했다. 목표는 성능 경쟁이 아니라 LLM 훈련 과정을 블랙박스가 아닌 학습 가능한 절차로 보여주는 데 있다.
r/MachineLearning에서 주목한 Dante-2B는 2×H200 위에서 scratch부터 훈련 중인 2.1B 규모의 Italian/English dense model이다. 이 프로젝트는 Italian에 맞춘 tokenizer 효율, 300B token corpus, 그리고 phase 2 이후 weights·tokenizer·pipeline 전체를 open release하겠다는 계획을 핵심으로 내세운다.
Comments (0)
No comments yet. Be the first to comment!