Skip to content

#mechanistic-interpretability

RSS Feed
LLM Hacker News Mar 7, 2026 1 min read

Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。