#llm-safety - Insights

LLM Hacker News Mar 7, 2026 1 min read

HN論点: OBLITERATUSがrefusal editingを公開LLM研究ツール化

Hacker Newsで話題になったOBLITERATUSは、retrainingなしでopen-weight LLMのrefusal behaviorを調べて変更しようとするオープンソースプロジェクトだ。注目点は単なるcapability主張ではなく、safety editingをモデルやhardwareをまたいで比較するtelemetry付きの公開研究パイプラインとして提示されていることにある。

#open-weight #llm-safety #mechanistic-interpretability

AI Hacker News Feb 20, 2026 1 min read

HN注目: 多言語でLLM Guardrailの挙動が大きく変わる可能性

Hacker Newsで注目された投稿は、同じ意味のポリシーでも言語が変わるだけでguardrail評価が36-53%ずれる可能性を示し、多言語安全性評価の不足を指摘した。

#llm-safety #guardrails #multilingual