1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由

なぜ投稿が一気に伸びたのか

見出しだけで十分に強かった。1931年以前のテキストだけで学習した13Bのlanguage model。r/singularityの反応もその魅力に正直だった。ユーザーはスクリーンショットを貼り、時代らしい言い回しかどうかを試し、現代のwebを知らないモデルが今の質問にどう返すのかを面白がった。上位コメントには「この発想が全部好きだ」という反応もあり、別のユーザーは当時らしさを感じる出力例を共有していた。

ただし、このスレッドが単なるネタ投稿で終わらなかったのは、Talkieが研究装置としても筋が通っていたからである。

なぜ研究的に面白いのか

プロジェクトページはtalkie-1930-13b-baseを、1931年以前の英語テキスト260B tokensで学習した13B modelとして紹介する。さらに、現代的なchat transcriptへそのまま依存しないinstruction-tuned checkpointも用意している。狙いはvintage language modelだ。現代webを見ていないため、benchmark contaminationの少ない状態で、モデルの一般化をもっときれいに観察できる。

具体的には、1930年以降の歴史イベント記述がどれだけ驚きとして見えるか、後年の発明や科学的発見へどこまで近づけるか、そして現代コードを事前学習していないモデルがin-context examplesだけでPythonをどれくらい書けるか、といった問いを投げられる。ページが示す初期結果では、TalkieはFineWebで学習した同構造の“modern twin”より標準的なknowledge evalで弱い。それでもcore language understandingやnumeracyでは差が比較的狭く、HumanEval系でもごく単純な問題ならときどき正解できる。

難しいのはノスタルジーではなくデータ品質

このプロジェクトが面白いのは、難しさまで可視化している点だ。vintage corpusはほぼすべて物理資料のスキャンから起こす必要があり、OCRノイズが大きい。説明によれば、普通のOCRでは学習効率がかなり落ち、逆に高度なVLM転写は現代の事実を幻覚的に混ぜ込む危険がある。さらにtemporal leakageもある。フィルタが甘いと、Roosevelt政権や戦後秩序のような本来cutoff後の知識がモデルへ入り込んでしまう。

なぜコミュニティが押し上げたのか

r/singularityがこの投稿を強く押したのは、Talkieが奇妙さと研究価値の両方を持っていたからだ。1930年の視点で話すモデルと遊ぶ楽しさがありつつ、同時に「webなしでLMは何を抽象化できるのか」「contaminationを抜くと評価はどう変わるのか」という大きな問いに触れられる。チームは次にGPT-3級のvintage modelを訓練中だと書き、将来的にはhistorical corpusを1T tokens超まで伸ばせる見込みだとも述べている。コミュニティは単なる珍しさ以上に、新しい研究レーンが開く瞬間を見ていた。

出典: Talkie project page · r/singularityスレッド

1930年で止まった13BモデルTalkie　r/singularityが夢中になった理由

なぜ投稿が一気に伸びたのか

なぜ研究的に面白いのか

難しいのはノスタルジーではなくデータ品質

なぜコミュニティが押し上げたのか

Related Articles

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

難解さより手触り、r/MachineLearningが反応した手作り diffusion LM

Comments (0)

Leave a Comment

Related Articles

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

難解さより手触り、r/MachineLearningが反応した手作り diffusion LM

なぜ投稿が一気に伸びたのか

なぜ研究的に面白いのか

難しいのはノスタルジーではなくデータ品質

なぜコミュニティが押し上げたのか

Related Articles

Anthropic、Claudeの選挙安全性試験を公開 100%・99.8%適合

SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景

難解さより手触り、r/MachineLearningが反応した手作り diffusion LM

Comments (0)

Leave a Comment

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景