100개 미만 파라미터 Tiny Transformer, 10자리 숫자 덧셈 100% 정확도 달성

극소 모델의 놀라운 산술 능력

머신러닝 연구의 흥미로운 발견이 r/MachineLearning에서 138점을 받으며 주목받고 있다: 파라미터가 100개도 안 되는 초소형 transformer 모델이 두 개의 10자리 숫자를 더하는 데 100% 정확도를 달성했다는 것이다. 이 결과는 GitHub의 AdderBoard 프로젝트로 공개되어 있다.

어떻게 가능한가? digit 토큰화

이 결과의 핵심은 토큰화 방식에 있다. 숫자를 문자열이 아닌 개별 자릿수(digit) 토큰으로 처리하면, 모델은 각 자릿수의 값을 직접 학습할 수 있다. 부동소수점 방식으로 숫자를 처리하면 훨씬 어렵지만, 자릿수 기반 토큰화는 덧셈의 패턴을 모델이 효율적으로 학습할 수 있게 한다.

AI의 수학적 능력에 대한 시사점

이 연구는 LLM의 수학적 추론 능력에 대한 흥미로운 질문을 제기한다. 대형 언어 모델들이 다자릿수 산술에 어려움을 겪는 이유 중 하나는 숫자가 하나의 덩어리 토큰으로 처리되기 때문이다. 이 연구는 올바른 토큰화 방식만으로도 극소 모델이 완벽한 산술 능력을 발휘할 수 있음을 보여준다.

연구자들은 이 발견이 자릿수 인식 토큰화를 채택한 수학 특화 모델 개발에 활용될 수 있을 것으로 기대하고 있다. 작은 모델이 정확한 산술을 수행할 수 있다면, 이는 더 큰 LLM이 수학적 추론에서 왜 실패하는지를 이해하는 데도 도움이 된다.