LLM Hacker News Mar 7, 2026 1 min read
Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。
Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。
Hacker Newsで注目された投稿は、同じ意味のポリシーでも言語が変わるだけでguardrail評価が36-53%ずれる可能性を示し、多言語安全性評価の不足を指摘した。