1930年代LLM「Talkie」、HNが刺さったのはレトロ口調より汚染なし検証
Original: Talkie: a 13B vintage language model from 1930 View original →
Talkieは入口がうまい。1931年以前のテキストだけで学習した13B言語モデルで、しかもClaude Sonnet 4.6がそのモデルとリアルタイムで会話している。Hacker Newsが開きたくなる条件はそろっている。ただ、実際の議論はレトロな物言いの面白さだけで終わらなかった。HNが本気で見ていたのは、Talkieを汚染の少ない一般化実験として使えるかどうかである。
プロジェクト側の説明もそこに重心がある。Talkieは現代のWebデータを混ぜないため、benchmark contaminationの問題から比較的自由だ。その性質を使って、知識カットオフ後の歴史的出来事をどれだけ意外だと感じるか、後年の発明や発見にどこまで近づけるか、そしてコンピュータ知識を持たないモデルがin-context examplesだけで単純なPythonの振る舞いを学べるかを見ている。現時点の成功例は小さい。だが、回転暗号のエンコード関数を見せてデコード側へ一文字差し替えるような解は、単なる雰囲気遊びでは片づけにくい。
HNのコメントもその点に集中した。近代風の口調なら大きな現代モデルにシステムプロンプトを入れれば再現できる、でも本当の価値はそこではない、という見方が目立つ。あるコメントはこのPython例を「stochastic parrot論への良い返し」と受け取り、別のコメントは厳密な時代カットオフの下で何が転移するかを見ること自体に研究価値があると指摘した。ロールプレイは簡単だが、知識を削った状態で抽象化がどこまで残るかは簡単ではない。
- モデルサイズ: 13B
- 学習カットオフ: pre-1931 text only
- 主題: contaminationを避けた評価
- デモ: Claude Sonnet 4.6がTalkieと対話
HNで伸びた理由は郷愁より方法論にある。昔風に話すかどうかより、現代データがなくても何が学べるのか、どこまで一般化できるのか。その問いをかなりきれいな形で投げた点がこの話の強さだ。Talkieはすぐに使う実用品というより、LLMが記憶の外でどこまで構造をつかめるかを測る実験室として読まれている。
Source links: Hacker News thread, Talkie project page.
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
LocalLLaMAはこの問いを思いつき話で終わらせなかった。スレッドは、なぜ今のLLMがlatent vectorにreasoningを隠さず、なお言語として見える形を保っているのかという本気の議論に変わった。
モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。
Comments (0)
No comments yet. Be the first to comment!