100パラメータ以下の超小型Transformerが10桁の足し算で100%精度を達成
Original: [R] Tiny transformers (<100 params) can add two 10-digit numbers to 100% accuracy View original →
超小型Transformerの驚くべき算術能力
r/MachineLearningで144点を獲得した研究によると、100個未満のパラメータを持つ超小型Transformerモデルが、2つの10桁の数字を足す作業で100%の精度を達成しました。GitHub上のAdderBoardプロジェクトとして公開されています。
鍵となる桁トークン化
この驚くべきパフォーマンスの核心は「桁トークン化(digit tokenization)」です。各数字を個別のトークンとして処理することで、モデルは算術の繰り上がりルールをより効果的に学習できます。コミュニティでは「この表現方法なしにはこのような性能は不可能だった」という反応がありました。
なぜ重要なのか
数十億のパラメータを持つ大型言語モデルが単純な算術で誤りを犯すことがある中、100個未満のパラメータで10桁の足し算を完璧に解けることは、スケールだけが重要な変数ではないことを示しています。データ表現と学習設計の重要性を改めて浮き彫りにする研究です。
浮動小数点演算の課題
この方法は整数の足し算では非常に効果的ですが、浮動小数点演算はより困難です。この研究はAIの算術精度向上に向けた新しい方向性を示しています。
Related Articles
100個未満のパラメータを持つ超小型transformerモデルが2つの10桁数字の足し算を100%の精度で実現した。鍵はdigitトークン化方式にあり、AdderBoard GitHubプロジェクトで結果が公開されている。
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
Hacker News の Show HN 投稿で、8.7M parameters、60K の合成会話データセット、Colab notebook を備えた GuppyLM が話題になった。狙いは性能競争ではなく、LLM の学習工程をブラックボックスではなく学べる形で見せることにある。
Comments (0)
No comments yet. Be the first to comment!