Dante-2B, English-first fine-tune 대신 Italian-first 설계를 제안

Italian을 뒤로 미루지 않겠다는 소형 open model 실험

2026-04-05에 올라온 r/MachineLearning 글에서 Dante-2B 개발자는 English-first fine-tune 관행을 정면으로 비판하며, Italian을 처음부터 중심에 둔 2.1B parameter bilingual LLM을 공개 준비 중이라고 설명했다. 검토 시점 기준으로 이 글은 54 score와 16 comments를 기록했다. 핵심 문제 제기는 분명하다. 많은 open model이 Italian을 기본 설계 대상이 아니라 사후 보정 대상으로 다루기 때문에 tokenization과 morphology에서 불리해지고, 결국 context efficiency와 generation 품질이 함께 희생된다는 것이다.

게시글에 따르면 Dante-2B는 random initialization에서 시작한 decoder-only dense transformer다. 구조는 LLaMA-style GQA, SwiGLU FFN, RMSNorm, RoPE 조합이고, d_model=2560, 28 layers, d_head=128, 20 query heads와 4 KV heads를 쓴다. 가장 눈에 띄는 요소는 tokenizer다. 개발자는 Italian apostrophe contraction과 accented character를 더 자연스럽게 다루기 위해 Italian + English + code에 맞춘 custom 64K BPE tokenizer를 만들었다고 적었다. 예시로 l'intelligenza 같은 표현이 English-centric tokenizer에서 불필요하게 여러 token으로 쪼개지는 문제를 지적했다.

학습 corpus는 약 300B tokens 규모로 설명되며, FineWeb-2 IT, FineWeb-Edu, Italian public domain literature 171K books, legal/parliamentary text, Wikipedia, StarCoderData가 언급됐다.
Phase 1은 seq_len 2048에서 100B tokens를 처리했고, DeepSpeed ZeRO-2, torch.compile, torchao FP8 조합으로 2× H200에서 약 16일이 걸렸다고 한다.
작성자는 이 구간에서 NaN이나 OOM 없이 대략 28% MFU를 유지했다고 주장했고, 현재는 4096 context를 목표로 20B tokens 규모의 Phase 2를 진행 중이라고 밝혔다.

이 프로젝트가 흥미로운 이유는 단순히 또 하나의 open LLM이 아니라, language-specific tokenizer와 pretraining recipe가 실제 지역 언어 품질에 얼마나 큰 차이를 만드는지 정면으로 실험하고 있기 때문이다. 댓글에서도 관심은 비슷한 지점에 모였다. 한 commenter는 multilingual setup에서 tokenizer가 가장 조용히 실패하는 지점이라고 평가했고, 다른 commenter는 corpus licensing을 어떻게 정리했는지 early stage부터 pressure test해야 한다고 지적했다. 즉 커뮤니티는 “Italian에 더 잘 맞는 model인가” 못지않게 “release-ready provenance를 갖출 수 있는가”를 보고 있다.

물론 아직은 self-reported progress update 단계다. 공개된 weights, model card, 독립 benchmark 결과는 아직 없고, 작성자도 GPT-4 수준 reasoning을 기대하라는 식의 과장은 하지 않았다. 그 대신 작은 cluster로도 특정 언어에 더 정직한 foundation model을 만들 수 있는지 보여주겠다는 방향을 제시했다는 점이 이 글의 실제 가치다. 만약 후속 HuggingFace release와 community benchmark가 뒤따른다면, Dante-2B는 “작지만 local language에 최적화된 model”의 흥미로운 사례가 될 수 있다.

Source link: Reddit thread.

Dante-2B, English-first fine-tune 대신 Italian-first 설계를 제안

Italian을 뒤로 미루지 않겠다는 소형 open model 실험

Related Articles

Tiny-vLLM, C++와 CUDA로 LLM inference를 끝까지 따라가는 교재형 엔진

Liquid AI, 38조 토큰 학습 MoE 모델 공개

Nemotron 3 Ultra, 550B MoE로 장시간 agent 비용 30% 낮추는 승부

Comments (0)

Leave a Comment

Related Articles

Tiny-vLLM, C++와 CUDA로 LLM inference를 끝까지 따라가는 교재형 엔진

Liquid AI, 38조 토큰 학습 MoE 모델 공개
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.

Nemotron 3 Ultra, 550B MoE로 장시간 agent 비용 30% 낮추는 승부