파라미터 100개 미만의 초소형 트랜스포머가 10자리 숫자 덧셈에서 100% 정확도 달성

초소형 트랜스포머의 놀라운 수학 능력

r/MachineLearning에서 144점을 기록한 흥미로운 연구에 따르면, 파라미터 수가 100개에도 못 미치는 초소형 트랜스포머 모델이 두 개의 10자리 숫자를 더하는 작업에서 100% 정확도를 달성했습니다. 이 연구는 GitHub의 AdderBoard 프로젝트를 통해 공개되었습니다.

핵심 기술: 숫자 토큰화

이 놀라운 성능의 핵심은 '숫자 토큰화(digit tokenization)'입니다. 각 숫자를 개별 토큰으로 처리하는 방식은 모델이 숫자 연산의 자리 올림 규칙을 더 효과적으로 학습할 수 있게 해줍니다. Reddit 커뮤니티에서는 "이 접근법이 없었다면 이런 성능은 불가능했을 것"이라는 반응이 나왔습니다.

왜 이것이 중요한가

대형 언어 모델들이 간단한 산수 문제에서도 실수를 하는 경우가 있다는 점에서, 이 연구는 특히 의미가 있습니다. 수십억 개의 파라미터를 가진 모델들이 쉬운 수학 문제에서 실패할 때 100개 미만의 파라미터로 이를 완벽하게 해결할 수 있다는 사실은 모델 아키텍처와 데이터 표현 방식의 중요성을 다시 한번 강조합니다.

부동소수점 연산의 한계

연구진은 이 방법이 정수 덧셈에서는 매우 효과적이지만, 부동소수점 연산에는 훨씬 어렵다고 지적합니다. 숫자 표현의 복잡성이 증가할수록 모델이 학습해야 할 패턴도 더 복잡해지기 때문입니다. 이 연구는 AI의 수학 능력 향상을 위한 새로운 방향성을 제시합니다.

파라미터 100개 미만의 초소형 트랜스포머가 10자리 숫자 덧셈에서 100% 정확도 달성

초소형 트랜스포머의 놀라운 수학 능력

핵심 기술: 숫자 토큰화

왜 이것이 중요한가

부동소수점 연산의 한계

Related Articles

30papers.com, “Ilya가 건넨 30편”을 읽기 쉬운 ML 입문서로 재구성

ESP32에서 28.9M LLM, 8달러 칩 위의 온디바이스 실험

Open-weight AI의 Kubernetes 순간, 금지보다 생태계가 논점

Related Articles

30papers.com, “Ilya가 건넨 30편”을 읽기 쉬운 ML 입문서로 재구성
LLM Hacker News Jul 8, 2026 1 min read

ESP32에서 28.9M LLM, 8달러 칩 위의 온디바이스 실험

Open-weight AI의 Kubernetes 순간, 금지보다 생태계가 논점