파라미터 100개 미만의 초소형 트랜스포머가 10자리 숫자 덧셈에서 100% 정확도 달성
Original: [R] Tiny transformers (<100 params) can add two 10-digit numbers to 100% accuracy View original →
초소형 트랜스포머의 놀라운 수학 능력
r/MachineLearning에서 144점을 기록한 흥미로운 연구에 따르면, 파라미터 수가 100개에도 못 미치는 초소형 트랜스포머 모델이 두 개의 10자리 숫자를 더하는 작업에서 100% 정확도를 달성했습니다. 이 연구는 GitHub의 AdderBoard 프로젝트를 통해 공개되었습니다.
핵심 기술: 숫자 토큰화
이 놀라운 성능의 핵심은 '숫자 토큰화(digit tokenization)'입니다. 각 숫자를 개별 토큰으로 처리하는 방식은 모델이 숫자 연산의 자리 올림 규칙을 더 효과적으로 학습할 수 있게 해줍니다. Reddit 커뮤니티에서는 "이 접근법이 없었다면 이런 성능은 불가능했을 것"이라는 반응이 나왔습니다.
왜 이것이 중요한가
대형 언어 모델들이 간단한 산수 문제에서도 실수를 하는 경우가 있다는 점에서, 이 연구는 특히 의미가 있습니다. 수십억 개의 파라미터를 가진 모델들이 쉬운 수학 문제에서 실패할 때 100개 미만의 파라미터로 이를 완벽하게 해결할 수 있다는 사실은 모델 아키텍처와 데이터 표현 방식의 중요성을 다시 한번 강조합니다.
부동소수점 연산의 한계
연구진은 이 방법이 정수 덧셈에서는 매우 효과적이지만, 부동소수점 연산에는 훨씬 어렵다고 지적합니다. 숫자 표현의 복잡성이 증가할수록 모델이 학습해야 할 패턴도 더 복잡해지기 때문입니다. 이 연구는 AI의 수학 능력 향상을 위한 새로운 방향성을 제시합니다.
Related Articles
arXiv에 공개된 Δ-Mem 논문이 HN에서 142점을 기록했다. 고정 크기 온라인 메모리 상태를 통해 LLM의 장기 기억 능력을 크게 향상시키며, MemoryAgentBench에서 기준 대비 1.31배 성능 개선을 달성했다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Stanford의 공개 CS25 강의는 Zoom, recordings, Discord를 통해 campus 밖까지 확장된 Transformer 연구 학습 채널로 다시 작동하고 있다.