1930年代LLM「Talkie」、HNが刺さったのはレトロ口調より汚染なし検証

Talkieは入口がうまい。1931年以前のテキストだけで学習した13B言語モデルで、しかもClaude Sonnet 4.6がそのモデルとリアルタイムで会話している。Hacker Newsが開きたくなる条件はそろっている。ただ、実際の議論はレトロな物言いの面白さだけで終わらなかった。HNが本気で見ていたのは、Talkieを汚染の少ない一般化実験として使えるかどうかである。

プロジェクト側の説明もそこに重心がある。Talkieは現代のWebデータを混ぜないため、benchmark contaminationの問題から比較的自由だ。その性質を使って、知識カットオフ後の歴史的出来事をどれだけ意外だと感じるか、後年の発明や発見にどこまで近づけるか、そしてコンピュータ知識を持たないモデルがin-context examplesだけで単純なPythonの振る舞いを学べるかを見ている。現時点の成功例は小さい。だが、回転暗号のエンコード関数を見せてデコード側へ一文字差し替えるような解は、単なる雰囲気遊びでは片づけにくい。

HNのコメントもその点に集中した。近代風の口調なら大きな現代モデルにシステムプロンプトを入れれば再現できる、でも本当の価値はそこではない、という見方が目立つ。あるコメントはこのPython例を「stochastic parrot論への良い返し」と受け取り、別のコメントは厳密な時代カットオフの下で何が転移するかを見ること自体に研究価値があると指摘した。ロールプレイは簡単だが、知識を削った状態で抽象化がどこまで残るかは簡単ではない。

モデルサイズ: 13B
学習カットオフ: pre-1931 text only
主題: contaminationを避けた評価
デモ: Claude Sonnet 4.6がTalkieと対話

HNで伸びた理由は郷愁より方法論にある。昔風に話すかどうかより、現代データがなくても何が学べるのか、どこまで一般化できるのか。その問いをかなりきれいな形で投げた点がこの話の強さだ。Talkieはすぐに使う実用品というより、LLMが記憶の外でどこまで構造をつかめるかを測る実験室として読まれている。

Source links: Hacker News thread, Talkie project page.

1930年代LLM「Talkie」、HNが刺さったのはレトロ口調より汚染なし検証

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

LLMはなぜベクトルで考えないのか　LocalLLaMA 140コメントの争点

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

LLMはなぜベクトルで考えないのか　LocalLLaMA 140コメントの争点

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法
モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。