LLM Hacker News 5d ago 1 min read
Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。
Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。
Hacker Newsで反響を集めた投稿は、Jane Streetのニューラルネット逆解析パズル解説を共有した。参加者は hand-built PyTorch モデルの内部構造を追跡し、MD5系の計算パターンを特定した。