1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유
Original: Talkie, a 13B LM trained exclusively on pre-1931 data View original →
이 글이 바로 터진 이유
제목만으로도 호기심을 끌기에 충분했다. 1931년 이전 텍스트만으로 학습한 13B 언어모델. r/singularity 반응도 정확히 그 지점에서 시작됐다. 사람들은 스크린샷을 올리고, 모델 말투가 시대에 맞는지 시험해 보고, 현대 웹을 전혀 모르는 모델이 오늘의 질문에 어떻게 답하는지 즐겼다. 상위 댓글 중 하나는 이 아이디어 자체가 너무 좋다고 적었고, 또 다른 사용자는 "정말 그 시대 같다"는 반응과 함께 예시를 붙였다.
하지만 이 글이 단순한 재미 게시물로 끝나지 않은 이유는 따로 있다. Talkie는 장난감 캐릭터가 아니라 오염이 적은 일반화 실험 장치로도 읽혔기 때문이다.
왜 이 프로젝트가 연구적으로 흥미로운가
프로젝트 페이지는 talkie-1930-13b-base를 1931년 이전의 영어 텍스트 260B 토큰으로 학습한 13B 모델이라고 소개한다. 여기에 현대 채팅 로그를 그대로 쓰지 않고 post-training한 대화형 checkpoint도 함께 내놨다. 핵심 발상은 vintage language model이다. 웹 이전 텍스트만 본 모델이기 때문에, 현대 웹에 섞여 들어가는 benchmark contamination 없이 더 깨끗한 질문을 던질 수 있다.
예를 들어 1930년 이후 역사 사건 설명이 모델에게 얼마나 놀랍게 보이는지 측정할 수 있고, 이후에 나온 발명이나 과학 발견에 가까워지는 사고를 보이는지도 볼 수 있다. 더 재미있는 부분은 코딩이다. 현대 코드를 사전학습하지 않은 모델이 in-context example만 보고 Python 문제를 어느 정도 푸는지 HumanEval 계열로 시험했다. 결과는 분명하다. 현대 웹으로 학습한 모델보다 훨씬 약하다. 그래도 아주 단순한 한 줄 문제나, 예시 함수의 역연산처럼 작은 일반화가 보이는 순간이 있다.
향수보다 어려운 건 데이터다
페이지는 어려움도 숨기지 않는다. vintage 모델의 가장 큰 문제는 향수가 아니라 데이터 품질이다. 1930년 이전 텍스트는 대부분 스캔본을 전사해야 하므로 OCR 잡음이 심하다. 프로젝트 설명에 따르면 일반 OCR로 만든 데이터는 학습 효율이 크게 떨어지고, 반대로 더 공격적인 VLM 전사는 현대 사실을 환각처럼 밀어 넣어 실험 자체를 망칠 수 있다. 여기에 temporal leakage도 있다. 필터가 완벽하지 않으면 모델이 Roosevelt 시기나 전후 질서 일부를 슬쩍 알게 될 수 있다.
왜 커뮤니티가 이 글을 밀었나
r/singularity가 이 글을 올린 이유는 Talkie가 기묘함과 연구 가치 사이를 정확히 찔렀기 때문이다. 1930년 시점에 갇힌 모델과 대화하는 재미도 있지만, 더 큰 질문도 열린다. 언어모델이 웹 없이도 무엇을 일반화할 수 있는가. contamination을 빼면 benchmark는 어떻게 달라지는가. 프로젝트 팀은 다음 단계로 GPT-3급 vintage 모델을 예고했고, 장기적으로는 역사 텍스트를 1T 토큰 이상까지 넓힐 수 있다고 적었다. 커뮤니티는 단순히 웃고 지나간 것이 아니라, 새로운 실험 레인이 열리는 순간을 본 셈이다.
Related Articles
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
r/MachineLearning이 이 글을 밀어 올린 이유는 성능 과시가 아니었다. MacBook Air M2에서 tiny Shakespeare로 7.5M 파라미터 diffusion LM을 직접 돌려 본 기록이, 어려운 개념을 갑자기 손에 잡히게 만들었다.
Comments (0)
No comments yet. Be the first to comment!