Dante-2B、English-first fine-tuneではなくItalian-first設計を提示
Original: [P] Dante-2B: I'm training a 2.1B bilingual fully open Italian/English LLM from scratch on 2×H200. Phase 1 done — here's what I've built. View original →
Italianを後回しにしない小型open modelの試み
2026-04-05のr/MachineLearning投稿で、Dante-2Bの開発者は、多くのopen modelがItalianを設計の中心ではなく後付けの対象として扱っていると批判し、Italianを最初から主役に据えた2.1B parameterのbilingual LLMを準備していると説明した。確認時点でこの投稿は54 score、16 commentsだった。主張は明快だ。多くのモデルはEnglish-firstなtokenizerとdata distributionを前提にしているため、fine-tune以前の段階で既にtoken効率と形態処理で不利を背負ってしまう、というのである。
投稿によれば、Dante-2Bはrandom initializationから始めたdecoder-only dense transformerだ。構成はLLaMA-style GQA、SwiGLU FFN、RMSNorm、RoPEで、d_model=2560、28 layers、d_head=128、20 query headsと4 KV headsを採用している。最も興味深いのはtokenizerだ。開発者はItalian、English、code向けにcustom 64K BPE tokenizerを作り、Italianのapostrophe contractionやaccented characterをより自然に扱えるようにしたと書いている。例として挙げられたのが l'intelligenza で、English-centric tokenizerでは不必要に細かく分割され、context効率とmorphologyの表現が損なわれるという。
- corpusは約300B tokensと説明され、FineWeb-2 IT、FineWeb-Edu、Italian public-domain literature、legal/parliamentary text、Wikipedia、StarCoderDataが挙げられている。
- Phase 1は
seq_len 2048で100B tokensを処理し、DeepSpeed ZeRO-2、torch.compile、torchaoFP8を使って2× H200上で約16日かかったとされる。投稿者は約28% MFUを維持したと主張している。 - Phase 2は4096 context lengthを目指す20B-tokenの延長とされ、その後にHuggingFace release、tokenizer release、さらにSFTが予定されている。
このプロジェクトが面白いのは、multilingual modelの品質をtokenizer設計の段階まで引き戻して議論している点だ。open modelの議論はparameter数やbenchmark scoreに寄りがちだが、Dante-2Bの投稿は、最初の語彙設計だけで特定言語が長期的に不利になる可能性を示している。commentsも同じ論点に集まった。ある commenter は、multilingual setupが静かに失敗する場所こそtokenizerだと述べ、別の commenter はItalian corpusのlicensingを早い段階で精査すべきだと指摘した。つまりコミュニティは、言語適合性だけでなく release-ready provenance も同時に見ている。
もちろん、これはまだself-reported progress updateであり、独立に検証されたreleaseではない。公開weightsや第三者benchmarkはなく、開発者自身もfrontier-class reasoningを約束していない。それでもこの投稿は、別のタイプのopen model projectの青写真を示している。巨大ではなく、language-specificで、tokenizer-awareで、checkpointだけでなくpipeline全体を公開しようとする方向だ。
Source link: Reddit thread.
Related Articles
HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
NVIDIAは550BパラメータのMoEモデルを、Agent ToolkitやOpenShellと一体で打ち出した。最大5倍の推論速度、最大30%のコスト低下、6月4日の提供開始が焦点になる。
Comments (0)
No comments yet. Be the first to comment!