1930年で止まった13BモデルTalkie r/singularityが夢中になった理由
Original: Talkie, a 13B LM trained exclusively on pre-1931 data View original →
なぜ投稿が一気に伸びたのか
見出しだけで十分に強かった。1931年以前のテキストだけで学習した13Bのlanguage model。r/singularityの反応もその魅力に正直だった。ユーザーはスクリーンショットを貼り、時代らしい言い回しかどうかを試し、現代のwebを知らないモデルが今の質問にどう返すのかを面白がった。上位コメントには「この発想が全部好きだ」という反応もあり、別のユーザーは当時らしさを感じる出力例を共有していた。
ただし、このスレッドが単なるネタ投稿で終わらなかったのは、Talkieが研究装置としても筋が通っていたからである。
なぜ研究的に面白いのか
プロジェクトページはtalkie-1930-13b-baseを、1931年以前の英語テキスト260B tokensで学習した13B modelとして紹介する。さらに、現代的なchat transcriptへそのまま依存しないinstruction-tuned checkpointも用意している。狙いはvintage language modelだ。現代webを見ていないため、benchmark contaminationの少ない状態で、モデルの一般化をもっときれいに観察できる。
具体的には、1930年以降の歴史イベント記述がどれだけ驚きとして見えるか、後年の発明や科学的発見へどこまで近づけるか、そして現代コードを事前学習していないモデルがin-context examplesだけでPythonをどれくらい書けるか、といった問いを投げられる。ページが示す初期結果では、TalkieはFineWebで学習した同構造の“modern twin”より標準的なknowledge evalで弱い。それでもcore language understandingやnumeracyでは差が比較的狭く、HumanEval系でもごく単純な問題ならときどき正解できる。
難しいのはノスタルジーではなくデータ品質
このプロジェクトが面白いのは、難しさまで可視化している点だ。vintage corpusはほぼすべて物理資料のスキャンから起こす必要があり、OCRノイズが大きい。説明によれば、普通のOCRでは学習効率がかなり落ち、逆に高度なVLM転写は現代の事実を幻覚的に混ぜ込む危険がある。さらにtemporal leakageもある。フィルタが甘いと、Roosevelt政権や戦後秩序のような本来cutoff後の知識がモデルへ入り込んでしまう。
なぜコミュニティが押し上げたのか
r/singularityがこの投稿を強く押したのは、Talkieが奇妙さと研究価値の両方を持っていたからだ。1930年の視点で話すモデルと遊ぶ楽しさがありつつ、同時に「webなしでLMは何を抽象化できるのか」「contaminationを抜くと評価はどう変わるのか」という大きな問いに触れられる。チームは次にGPT-3級のvintage modelを訓練中だと書き、将来的にはhistorical corpusを1T tokens超まで伸ばせる見込みだとも述べている。コミュニティは単なる珍しさ以上に、新しい研究レーンが開く瞬間を見ていた。
Related Articles
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
r/MachineLearningがこの投稿を押し上げたのは性能自慢のためではない。tiny Shakespeareを使い、M2 Airで7.5Mパラメータの diffusion LM を動かした記録が、難しい概念を急に手で触れるものへ変えたからだ。
Comments (0)
No comments yet. Be the first to comment!