#mechanistic-interpretability

LLM Hacker News 5d ago 1 min read

Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。

© 2026 Insights. All rights reserved.