1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유

이 글이 바로 터진 이유

제목만으로도 호기심을 끌기에 충분했다. 1931년 이전 텍스트만으로 학습한 13B 언어모델. r/singularity 반응도 정확히 그 지점에서 시작됐다. 사람들은 스크린샷을 올리고, 모델 말투가 시대에 맞는지 시험해 보고, 현대 웹을 전혀 모르는 모델이 오늘의 질문에 어떻게 답하는지 즐겼다. 상위 댓글 중 하나는 이 아이디어 자체가 너무 좋다고 적었고, 또 다른 사용자는 "정말 그 시대 같다"는 반응과 함께 예시를 붙였다.

하지만 이 글이 단순한 재미 게시물로 끝나지 않은 이유는 따로 있다. Talkie는 장난감 캐릭터가 아니라 오염이 적은 일반화 실험 장치로도 읽혔기 때문이다.

왜 이 프로젝트가 연구적으로 흥미로운가

프로젝트 페이지는 talkie-1930-13b-base를 1931년 이전의 영어 텍스트 260B 토큰으로 학습한 13B 모델이라고 소개한다. 여기에 현대 채팅 로그를 그대로 쓰지 않고 post-training한 대화형 checkpoint도 함께 내놨다. 핵심 발상은 vintage language model이다. 웹 이전 텍스트만 본 모델이기 때문에, 현대 웹에 섞여 들어가는 benchmark contamination 없이 더 깨끗한 질문을 던질 수 있다.

예를 들어 1930년 이후 역사 사건 설명이 모델에게 얼마나 놀랍게 보이는지 측정할 수 있고, 이후에 나온 발명이나 과학 발견에 가까워지는 사고를 보이는지도 볼 수 있다. 더 재미있는 부분은 코딩이다. 현대 코드를 사전학습하지 않은 모델이 in-context example만 보고 Python 문제를 어느 정도 푸는지 HumanEval 계열로 시험했다. 결과는 분명하다. 현대 웹으로 학습한 모델보다 훨씬 약하다. 그래도 아주 단순한 한 줄 문제나, 예시 함수의 역연산처럼 작은 일반화가 보이는 순간이 있다.

향수보다 어려운 건 데이터다

페이지는 어려움도 숨기지 않는다. vintage 모델의 가장 큰 문제는 향수가 아니라 데이터 품질이다. 1930년 이전 텍스트는 대부분 스캔본을 전사해야 하므로 OCR 잡음이 심하다. 프로젝트 설명에 따르면 일반 OCR로 만든 데이터는 학습 효율이 크게 떨어지고, 반대로 더 공격적인 VLM 전사는 현대 사실을 환각처럼 밀어 넣어 실험 자체를 망칠 수 있다. 여기에 temporal leakage도 있다. 필터가 완벽하지 않으면 모델이 Roosevelt 시기나 전후 질서 일부를 슬쩍 알게 될 수 있다.

왜 커뮤니티가 이 글을 밀었나

r/singularity가 이 글을 올린 이유는 Talkie가 기묘함과 연구 가치 사이를 정확히 찔렀기 때문이다. 1930년 시점에 갇힌 모델과 대화하는 재미도 있지만, 더 큰 질문도 열린다. 언어모델이 웹 없이도 무엇을 일반화할 수 있는가. contamination을 빼면 benchmark는 어떻게 달라지는가. 프로젝트 팀은 다음 단계로 GPT-3급 vintage 모델을 예고했고, 장기적으로는 역사 텍스트를 1T 토큰 이상까지 넓힐 수 있다고 적었다. 커뮤니티는 단순히 웃고 지나간 것이 아니라, 새로운 실험 레인이 열리는 순간을 본 셈이다.

출처: Talkie 프로젝트 페이지 · r/singularity 스레드

1930년에 멈춘 13B 모델 Talkie, r/singularity가 꽂힌 이유

이 글이 바로 터진 이유

왜 이 프로젝트가 연구적으로 흥미로운가

향수보다 어려운 건 데이터다

왜 커뮤니티가 이 글을 밀었나

Related Articles

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

거창한 이론보다 손에 잡혔다, r/MachineLearning이 본 diffusion LM 입문기

Comments (0)

Leave a Comment

Related Articles

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

거창한 이론보다 손에 잡혔다, r/MachineLearning이 본 diffusion LM 입문기