1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유
Original: Talkie, a 13B LM trained exclusively on pre-1931 data View original →
이 글이 바로 터진 이유
제목만으로도 호기심을 끌기에 충분했다. 1931년 이전 텍스트만으로 학습한 13B 언어모델. r/singularity 반응도 정확히 그 지점에서 시작됐다. 사람들은 스크린샷을 올리고, 모델 말투가 시대에 맞는지 시험해 보고, 현대 웹을 전혀 모르는 모델이 오늘의 질문에 어떻게 답하는지 즐겼다. 상위 댓글 중 하나는 이 아이디어 자체가 너무 좋다고 적었고, 또 다른 사용자는 "정말 그 시대 같다"는 반응과 함께 예시를 붙였다.
하지만 이 글이 단순한 재미 게시물로 끝나지 않은 이유는 따로 있다. Talkie는 장난감 캐릭터가 아니라 오염이 적은 일반화 실험 장치로도 읽혔기 때문이다.
왜 이 프로젝트가 연구적으로 흥미로운가
프로젝트 페이지는 talkie-1930-13b-base를 1931년 이전의 영어 텍스트 260B 토큰으로 학습한 13B 모델이라고 소개한다. 여기에 현대 채팅 로그를 그대로 쓰지 않고 post-training한 대화형 checkpoint도 함께 내놨다. 핵심 발상은 vintage language model이다. 웹 이전 텍스트만 본 모델이기 때문에, 현대 웹에 섞여 들어가는 benchmark contamination 없이 더 깨끗한 질문을 던질 수 있다.
예를 들어 1930년 이후 역사 사건 설명이 모델에게 얼마나 놀랍게 보이는지 측정할 수 있고, 이후에 나온 발명이나 과학 발견에 가까워지는 사고를 보이는지도 볼 수 있다. 더 재미있는 부분은 코딩이다. 현대 코드를 사전학습하지 않은 모델이 in-context example만 보고 Python 문제를 어느 정도 푸는지 HumanEval 계열로 시험했다. 결과는 분명하다. 현대 웹으로 학습한 모델보다 훨씬 약하다. 그래도 아주 단순한 한 줄 문제나, 예시 함수의 역연산처럼 작은 일반화가 보이는 순간이 있다.
향수보다 어려운 건 데이터다
페이지는 어려움도 숨기지 않는다. vintage 모델의 가장 큰 문제는 향수가 아니라 데이터 품질이다. 1930년 이전 텍스트는 대부분 스캔본을 전사해야 하므로 OCR 잡음이 심하다. 프로젝트 설명에 따르면 일반 OCR로 만든 데이터는 학습 효율이 크게 떨어지고, 반대로 더 공격적인 VLM 전사는 현대 사실을 환각처럼 밀어 넣어 실험 자체를 망칠 수 있다. 여기에 temporal leakage도 있다. 필터가 완벽하지 않으면 모델이 Roosevelt 시기나 전후 질서 일부를 슬쩍 알게 될 수 있다.
왜 커뮤니티가 이 글을 밀었나
r/singularity가 이 글을 올린 이유는 Talkie가 기묘함과 연구 가치 사이를 정확히 찔렀기 때문이다. 1930년 시점에 갇힌 모델과 대화하는 재미도 있지만, 더 큰 질문도 열린다. 언어모델이 웹 없이도 무엇을 일반화할 수 있는가. contamination을 빼면 benchmark는 어떻게 달라지는가. 프로젝트 팀은 다음 단계로 GPT-3급 vintage 모델을 예고했고, 장기적으로는 역사 텍스트를 1T 토큰 이상까지 넓힐 수 있다고 적었다. 커뮤니티는 단순히 웃고 지나간 것이 아니라, 새로운 실험 레인이 열리는 순간을 본 셈이다.
Related Articles
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
530점 넘게 오른 관심은 “LLM을 쓰는 법”보다 “LLM이 어떻게 만들어지는지”를 다시 배우려는 수요에 모였다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.