AI Reddit Mar 29, 2026 1 min read
r/artificial のリンク投稿は、100 nonsense prompts と 3-judge panel を使う BullshitBench v2 を再び注目させた。現在の public leaderboard では Claude Sonnet 4.6 の high reasoning が 91% green rate、3% red rate で 1 位だが、community benchmark として読むべきという注意も必要だ。