1930年で止まった13BモデルTalkie r/singularityが夢中になった理由
Original: Talkie, a 13B LM trained exclusively on pre-1931 data View original →
なぜ投稿が一気に伸びたのか
見出しだけで十分に強かった。1931年以前のテキストだけで学習した13Bのlanguage model。r/singularityの反応もその魅力に正直だった。ユーザーはスクリーンショットを貼り、時代らしい言い回しかどうかを試し、現代のwebを知らないモデルが今の質問にどう返すのかを面白がった。上位コメントには「この発想が全部好きだ」という反応もあり、別のユーザーは当時らしさを感じる出力例を共有していた。
ただし、このスレッドが単なるネタ投稿で終わらなかったのは、Talkieが研究装置としても筋が通っていたからである。
なぜ研究的に面白いのか
プロジェクトページはtalkie-1930-13b-baseを、1931年以前の英語テキスト260B tokensで学習した13B modelとして紹介する。さらに、現代的なchat transcriptへそのまま依存しないinstruction-tuned checkpointも用意している。狙いはvintage language modelだ。現代webを見ていないため、benchmark contaminationの少ない状態で、モデルの一般化をもっときれいに観察できる。
具体的には、1930年以降の歴史イベント記述がどれだけ驚きとして見えるか、後年の発明や科学的発見へどこまで近づけるか、そして現代コードを事前学習していないモデルがin-context examplesだけでPythonをどれくらい書けるか、といった問いを投げられる。ページが示す初期結果では、TalkieはFineWebで学習した同構造の“modern twin”より標準的なknowledge evalで弱い。それでもcore language understandingやnumeracyでは差が比較的狭く、HumanEval系でもごく単純な問題ならときどき正解できる。
難しいのはノスタルジーではなくデータ品質
このプロジェクトが面白いのは、難しさまで可視化している点だ。vintage corpusはほぼすべて物理資料のスキャンから起こす必要があり、OCRノイズが大きい。説明によれば、普通のOCRでは学習効率がかなり落ち、逆に高度なVLM転写は現代の事実を幻覚的に混ぜ込む危険がある。さらにtemporal leakageもある。フィルタが甘いと、Roosevelt政権や戦後秩序のような本来cutoff後の知識がモデルへ入り込んでしまう。
なぜコミュニティが押し上げたのか
r/singularityがこの投稿を強く押したのは、Talkieが奇妙さと研究価値の両方を持っていたからだ。1930年の視点で話すモデルと遊ぶ楽しさがありつつ、同時に「webなしでLMは何を抽象化できるのか」「contaminationを抜くと評価はどう変わるのか」という大きな問いに触れられる。チームは次にGPT-3級のvintage modelを訓練中だと書き、将来的にはhistorical corpusを1T tokens超まで伸ばせる見込みだとも述べている。コミュニティは単なる珍しさ以上に、新しい研究レーンが開く瞬間を見ていた。
Related Articles
注目を集めた論点は、現代のlanguage modelをどこまで自分の手で作って学べるのかだった。
モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
MiniMax M3はベンチマーク投稿からオープンウェイト配布へ進んだ。モデルカードは約428Bパラメータ、23B有効パラメータ、1Mトークン文脈を示している。