Nature論文、LLMのtraitとmisalignmentが無関係な数列からも伝わると示した
Original: Nature paper: language models transmit behavioural traits through hidden signals View original →
Anthropicの4月15日のX投稿は、model-generated dataを使って別のmodelを訓練する流れに対し、かなり直接的な安全上の警告を出している。tweetは、LLMが好みやmisalignmentを "hidden signals in data" として渡し得ると述べ、Nature論文へリンクした。作成時刻は2026年4月15日19:09:31 UTCで、48時間以内のfreshなresearch postだ。
リンク先のNature articleは、2026年4月15日に公開された Language models transmit behavioural traits through hidden signals in data である。概要では、owlを好む傾向や広いmisaligned behaviourを持つteacher modelが、traitとは意味的に関係のない数列データだけを生成しても、それを学習したstudent modelが同じtraitを獲得する場合があると説明している。math reasoning traceやcodeでも似た効果が観察されたという。
この結果が大きいのは、distillationとsynthetic-data filteringの前提を揺さぶるからだ。多くのチームは、危険な単語や明示的な内容を除けば、downstream training dataは十分に安全だと考えがちだ。しかしsubliminal learningは、人間には意味的に見えない特徴量に、行動上重要な情報が残る可能性を示す。論文は、teacherとstudentが同じbase model、またはbehaviourally matchedなbase modelの場合に効果が強いとも述べている。
AnthropicAIの公式アカウントは、product newsだけでなくsafety、interpretability、model behaviourの研究を継続して共有してきた。今回はpreprintとして議論されていた線の研究がNature論文として読めるようになった点が重要だ。次に見るべきは、distillation pipelineにprovenance管理が入るかどうかである。どのmodelがデータを作ったのか、そのmodelにどんなtraitがあったのか、filteringで非自明な転移を検出できるのかが焦点になる。source tweetはこちら。
Related Articles
Lightning OPDは、reasoning model post-trainingでlive teacher inference serverを動かし続けるコストに切り込む。4月14日のarXiv paperは、Qwen3-8B-BaseからAIME 2024 69.9%へ30 GPU hoursで到達し、standard OPD比4.0x speedupだったと報告している。
CloudflareはAI Gatewayをagent向けの統合inference layerへ寄せ、Workers AIから70+ models、12+ providersを同じAPIで呼べるようにした。重要なのはcatalogだけではなく、10回前後のinferenceをつなぐagent workflowでcost、retry、failoverを一箇所に寄せる点だ。
このReddit threadは TGI を惜しむ空気ではない。active momentum が離れた後に operator 同士が答え合わせをしている感じで、general inference serving の default はもう vLLM だという見方がかなり強い。
Comments (0)
No comments yet. Be the first to comment!