AI Hacker News Apr 12, 2026 1 min read
Hacker Newsで大きく読まれたAISLEの投稿は、Anthropic Mythosの発表がAI securityという領域の現実性を示した一方で、優位性が特定のmodelだけに閉じているとは言えないと論じる。適切なcode pathを切り出せば、小型のopen modelでも重要な分析をかなり再現できたという主張だ。
Hacker Newsで大きく読まれたAISLEの投稿は、Anthropic Mythosの発表がAI securityという領域の現実性を示した一方で、優位性が特定のmodelだけに閉じているとは言えないと論じる。適切なcode pathを切り出せば、小型のopen modelでも重要な分析をかなり再現できたという主張だ。
r/artificial のリンク投稿は、100 nonsense prompts と 3-judge panel を使う BullshitBench v2 を再び注目させた。現在の public leaderboard では Claude Sonnet 4.6 の high reasoning が 91% green rate、3% red rate で 1 位だが、community benchmark として読むべきという注意も必要だ。