LLM X/Twitter Apr 16, 2026 1 min read
synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。
synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。