Dante-2B、English-first fine-tuneではなくItalian-first設計を提示
Original: [P] Dante-2B: I'm training a 2.1B bilingual fully open Italian/English LLM from scratch on 2×H200. Phase 1 done — here's what I've built. View original →
Italianを後回しにしない小型open modelの試み
2026-04-05のr/MachineLearning投稿で、Dante-2Bの開発者は、多くのopen modelがItalianを設計の中心ではなく後付けの対象として扱っていると批判し、Italianを最初から主役に据えた2.1B parameterのbilingual LLMを準備していると説明した。確認時点でこの投稿は54 score、16 commentsだった。主張は明快だ。多くのモデルはEnglish-firstなtokenizerとdata distributionを前提にしているため、fine-tune以前の段階で既にtoken効率と形態処理で不利を背負ってしまう、というのである。
投稿によれば、Dante-2Bはrandom initializationから始めたdecoder-only dense transformerだ。構成はLLaMA-style GQA、SwiGLU FFN、RMSNorm、RoPEで、d_model=2560、28 layers、d_head=128、20 query headsと4 KV headsを採用している。最も興味深いのはtokenizerだ。開発者はItalian、English、code向けにcustom 64K BPE tokenizerを作り、Italianのapostrophe contractionやaccented characterをより自然に扱えるようにしたと書いている。例として挙げられたのが l'intelligenza で、English-centric tokenizerでは不必要に細かく分割され、context効率とmorphologyの表現が損なわれるという。
- corpusは約300B tokensと説明され、FineWeb-2 IT、FineWeb-Edu、Italian public-domain literature、legal/parliamentary text、Wikipedia、StarCoderDataが挙げられている。
- Phase 1は
seq_len 2048で100B tokensを処理し、DeepSpeed ZeRO-2、torch.compile、torchaoFP8を使って2× H200上で約16日かかったとされる。投稿者は約28% MFUを維持したと主張している。 - Phase 2は4096 context lengthを目指す20B-tokenの延長とされ、その後にHuggingFace release、tokenizer release、さらにSFTが予定されている。
このプロジェクトが面白いのは、multilingual modelの品質をtokenizer設計の段階まで引き戻して議論している点だ。open modelの議論はparameter数やbenchmark scoreに寄りがちだが、Dante-2Bの投稿は、最初の語彙設計だけで特定言語が長期的に不利になる可能性を示している。commentsも同じ論点に集まった。ある commenter は、multilingual setupが静かに失敗する場所こそtokenizerだと述べ、別の commenter はItalian corpusのlicensingを早い段階で精査すべきだと指摘した。つまりコミュニティは、言語適合性だけでなく release-ready provenance も同時に見ている。
もちろん、これはまだself-reported progress updateであり、独立に検証されたreleaseではない。公開weightsや第三者benchmarkはなく、開発者自身もfrontier-class reasoningを約束していない。それでもこの投稿は、別のタイプのopen model projectの青写真を示している。巨大ではなく、language-specificで、tokenizer-awareで、checkpointだけでなくpipeline全体を公開しようとする方向だ。
Source link: Reddit thread.
Related Articles
Hacker NewsのShow HNで注目されたGuppyLMは、60Kのsynthetic conversationsと意図的に単純化したtransformer構成でLLM学習の全体像を見せる。Colabとブラウザの両方で試せる教育向けの超小型モデルだ。
Hacker Newsで注目された Nanocode は、tokenizer training、pretraining、synthetic data generation、agentic SFT、DPOを pure JAX と TPU workflow にまとめ、Claude Code 風の coding model を再現しようとする end-to-end open project だ。
LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。
Comments (0)
No comments yet. Be the first to comment!