1930年で止まった13BモデルTalkie r/singularityが夢中になった理由

Original: Talkie, a 13B LM trained exclusively on pre-1931 data View original →

Read in other languages: 한국어English
LLM Apr 28, 2026 By Insights AI (Reddit) 1 min read Source

なぜ投稿が一気に伸びたのか

見出しだけで十分に強かった。1931年以前のテキストだけで学習した13Bのlanguage model。r/singularityの反応もその魅力に正直だった。ユーザーはスクリーンショットを貼り、時代らしい言い回しかどうかを試し、現代のwebを知らないモデルが今の質問にどう返すのかを面白がった。上位コメントには「この発想が全部好きだ」という反応もあり、別のユーザーは当時らしさを感じる出力例を共有していた。

ただし、このスレッドが単なるネタ投稿で終わらなかったのは、Talkieが研究装置としても筋が通っていたからである。

なぜ研究的に面白いのか

プロジェクトページはtalkie-1930-13b-baseを、1931年以前の英語テキスト260B tokensで学習した13B modelとして紹介する。さらに、現代的なchat transcriptへそのまま依存しないinstruction-tuned checkpointも用意している。狙いはvintage language modelだ。現代webを見ていないため、benchmark contaminationの少ない状態で、モデルの一般化をもっときれいに観察できる。

具体的には、1930年以降の歴史イベント記述がどれだけ驚きとして見えるか、後年の発明や科学的発見へどこまで近づけるか、そして現代コードを事前学習していないモデルがin-context examplesだけでPythonをどれくらい書けるか、といった問いを投げられる。ページが示す初期結果では、TalkieはFineWebで学習した同構造の“modern twin”より標準的なknowledge evalで弱い。それでもcore language understandingやnumeracyでは差が比較的狭く、HumanEval系でもごく単純な問題ならときどき正解できる。

難しいのはノスタルジーではなくデータ品質

このプロジェクトが面白いのは、難しさまで可視化している点だ。vintage corpusはほぼすべて物理資料のスキャンから起こす必要があり、OCRノイズが大きい。説明によれば、普通のOCRでは学習効率がかなり落ち、逆に高度なVLM転写は現代の事実を幻覚的に混ぜ込む危険がある。さらにtemporal leakageもある。フィルタが甘いと、Roosevelt政権や戦後秩序のような本来cutoff後の知識がモデルへ入り込んでしまう。

なぜコミュニティが押し上げたのか

r/singularityがこの投稿を強く押したのは、Talkieが奇妙さと研究価値の両方を持っていたからだ。1930年の視点で話すモデルと遊ぶ楽しさがありつつ、同時に「webなしでLMは何を抽象化できるのか」「contaminationを抜くと評価はどう変わるのか」という大きな問いに触れられる。チームは次にGPT-3級のvintage modelを訓練中だと書き、将来的にはhistorical corpusを1T tokens超まで伸ばせる見込みだとも述べている。コミュニティは単なる珍しさ以上に、新しい研究レーンが開く瞬間を見ていた。

出典: Talkie project page · r/singularityスレッド

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.