r/MachineLearning이 본 Dante-2B, Italian 중심 bilingual LLM을 2×H200로 scratch부터 훈련

Original: [P] Dante-2B: I'm training a 2.1B bilingual fully open Italian/English LLM from scratch on 2×H200. Phase 1 done — here's what I've built. View original →

Read in other languages: English日本語
LLM Apr 8, 2026 By Insights AI (Reddit) 1 min read Source

r/MachineLearning 글은 Dante-2B라는 Italian/English 모델을 커뮤니티 앞으로 끌어올렸다. 작성자 angeletti89는 이 프로젝트가 Llama나 Mistral fine-tune이 아니라, 2× H200 GPU 위에서 처음부터 학습하는 2.1B parameter dense decoder-only transformer라고 설명한다. 구조는 28 layers, d_model=2560, GQA, SwiGLU, RMSNorm, RoPE이며, Italian·English·code를 겨냥한 custom 64K BPE tokenizer를 사용한다.

글의 중심은 tokenizer다. 작성자는 English-first tokenizer가 l'intelligenza 같은 Italian contraction을 비효율적으로 잘라 context window를 낭비하고 morphology 처리도 약하게 만든다고 지적한다. Dante-2B tokenizer는 약 42% Italian, 36% English, 22% code 비율의 character-balanced mixture로 학습됐고, apostrophe contraction을 유지하는 pre-tokenization 규칙과 accented character를 atomic unit로 다루는 설계를 넣었다고 한다.

작지만 언어 효율을 정면으로 겨냥한 설계

학습 세부사항도 꽤 구체적이다. 작성자는 FineWeb-2 Italian, FineWeb-Edu, 171K권의 Italian public-domain books, legal·parliamentary text, bilingual Wikipedia, StarCoderData를 합친 약 300B token corpus를 설명한다. 이미 끝난 Phase 1은 sequence length 2048에서 100B tokens를 돌렸고, DeepSpeed ZeRO-2, torch.compile, FP8 via torchao를 사용했다. 게시물에 따르면 이 과정은 약 16일이 걸렸고 NaN과 OOM 없이 진행됐으며, 약 28% MFU를 유지했다. 현재는 20B tokens를 더 사용해 context를 4096으로 늘리는 Phase 2가 진행 중이다.

이 스레드가 의미 있는 이유는 benchmark 자체보다 방향성에 있다. 많은 open multilingual model이 여전히 Italian 같은 언어를 English의 부속으로 다루지만, Dante-2B는 tokenizer efficiency와 corpus composition을 먼저 바로잡은 뒤 작은 모델을 깨끗하게 키우겠다는 반대 전략을 택한다. 작성자는 Phase 2가 끝나면 weights, tokenizer, config, pretraining pipeline 전부를 공개하고 이후 SFT phase도 진행하겠다고 적었다. frontier model과 직접 겨루는 규모는 아니더라도, 언어별 품질이 결국 raw parameter count 못지않게 data와 tokenization choice에 좌우된다는 점을 다시 보여 주는 사례다.

Share: Long

Related Articles

LLM sources.twitter 3d ago 2 min read

Anthropic는 2026년 4월 3일 Fellows 연구를 통해 AI 모델 간 행동 차이를 드러내는 새로운 방법을 소개했다. 함께 공개된 연구는 이 도구를 기존 benchmark가 놓칠 수 있는 모델 고유 행동을 찾는 high-recall screening 방식으로 설명한다.

LLM sources.twitter 1d ago 1 min read

Google DeepMind의 2026년 4월 2일 X 게시물은 Gemma 4를 reasoning과 agentic workflows를 겨냥한 새 open model family로 소개했다. Google은 E2B, E4B, 26B MoE, 31B Dense 구성을 공개하고 function calling, structured JSON, 긴 context window를 핵심 차별점으로 제시했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.