r/MachineLearning이 본 Dante-2B, Italian 중심 bilingual LLM을 2×H200로 scratch부터 훈련

r/MachineLearning 글은 Dante-2B라는 Italian/English 모델을 커뮤니티 앞으로 끌어올렸다. 작성자 angeletti89는 이 프로젝트가 Llama나 Mistral fine-tune이 아니라, 2× H200 GPU 위에서 처음부터 학습하는 2.1B parameter dense decoder-only transformer라고 설명한다. 구조는 28 layers, d_model=2560, GQA, SwiGLU, RMSNorm, RoPE이며, Italian·English·code를 겨냥한 custom 64K BPE tokenizer를 사용한다.

글의 중심은 tokenizer다. 작성자는 English-first tokenizer가 l'intelligenza 같은 Italian contraction을 비효율적으로 잘라 context window를 낭비하고 morphology 처리도 약하게 만든다고 지적한다. Dante-2B tokenizer는 약 42% Italian, 36% English, 22% code 비율의 character-balanced mixture로 학습됐고, apostrophe contraction을 유지하는 pre-tokenization 규칙과 accented character를 atomic unit로 다루는 설계를 넣었다고 한다.

작지만 언어 효율을 정면으로 겨냥한 설계

학습 세부사항도 꽤 구체적이다. 작성자는 FineWeb-2 Italian, FineWeb-Edu, 171K권의 Italian public-domain books, legal·parliamentary text, bilingual Wikipedia, StarCoderData를 합친 약 300B token corpus를 설명한다. 이미 끝난 Phase 1은 sequence length 2048에서 100B tokens를 돌렸고, DeepSpeed ZeRO-2, torch.compile, FP8 via torchao를 사용했다. 게시물에 따르면 이 과정은 약 16일이 걸렸고 NaN과 OOM 없이 진행됐으며, 약 28% MFU를 유지했다. 현재는 20B tokens를 더 사용해 context를 4096으로 늘리는 Phase 2가 진행 중이다.

이 스레드가 의미 있는 이유는 benchmark 자체보다 방향성에 있다. 많은 open multilingual model이 여전히 Italian 같은 언어를 English의 부속으로 다루지만, Dante-2B는 tokenizer efficiency와 corpus composition을 먼저 바로잡은 뒤 작은 모델을 깨끗하게 키우겠다는 반대 전략을 택한다. 작성자는 Phase 2가 끝나면 weights, tokenizer, config, pretraining pipeline 전부를 공개하고 이후 SFT phase도 진행하겠다고 적었다. frontier model과 직접 겨루는 규모는 아니더라도, 언어별 품질이 결국 raw parameter count 못지않게 data와 tokenization choice에 좌우된다는 점을 다시 보여 주는 사례다.

r/MachineLearning이 본 Dante-2B, Italian 중심 bilingual LLM을 2×H200로 scratch부터 훈련

작지만 언어 효율을 정면으로 겨냥한 설계

Related Articles

Gemini 3.5 Flash GA, Google Search까지 agent 표면으로 확장

GLM-5.1 inference 병목, GPU가 아니라 network topology였던 사례

OpenRouter 25조 토큰/주, AI 라우팅 인프라에 $113M 유입

Comments (0)

Leave a Comment

Related Articles

Gemini 3.5 Flash GA, Google Search까지 agent 표면으로 확장

GLM-5.1 inference 병목, GPU가 아니라 network topology였던 사례
Zai의 ZCube 사례에서 관심은 새 GPU가 아니라 같은 GPU·같은 software stack으로 throughput 15%와 first-token tail latency 40.6% 개선을 냈다는 점에 모였다.

OpenRouter 25조 토큰/주, AI 라우팅 인프라에 $113M 유입
모델을 하나 고르는 시대보다, 요청마다 비용·속도·성능을 갈아타는 운영층에 돈이 몰리고 있다. OpenRouter는 주간 25조 토큰, 400개 이상 모델, 800만 명 이상 사용자라는 숫자로 $113 million Series B를 끌어냈다.