r/artificial が再び広めた BullshitBench v2、Claude が nonsense detection leaderboard の先頭へ

r/artificial が掘り起こしたもの

March 29, 2026 の r/artificial のリンク投稿は、BullshitBench v2 という community benchmark を再び表に出した。この benchmark は、models が nonsense を見抜いて止まるのか、それとも壊れた premise をそのまま受け入れて自信ありげに続けてしまうのかを測る。単なる hallucination という話よりも、失敗の形をかなり具体的に切り出している。README は応答を clear pushback、partial challenge、accepted nonsense に分けて扱うと説明している。

README によれば、BullshitBench v2 は software、finance、legal、medical、physics の 5 domains にまたがる 100 nonsense prompts で構成される。public な v2 leaderboard には、scoring pipeline が 3-judge panel と mean aggregation を使うとあり、judges は anthropic/claude-sonnet-4.6、openai/gpt-5.2、google/gemini-3.1-pro-preview だ。公開されている board には現在 80 の model または reasoning rows が載っている。

この結果をどう読むべきか

ただし、これを neutral industry standard として受け取るべきではない。この repo は March 12, 2026 に更新されており、question set は project 自身が curated し、3 judges のうち 1 つは Anthropic model だ。だから leaderboard は最終判定というより useful signal として読むのが妥当だ。それでも面白いのは、failure mode をかなり具体的に捉えている点にある。重要なのは、どの model がより多くの facts を知っているかだけではなく、premise 自体が壊れていると気づき、続行する前に止まれるかどうかだ。

そのためこの chart は r/artificial で響いた。software、medical、legal、finance のような high-stakes workflow では、答えを多く出せることだけが価値ではない。問いそのものがおかしいときに、早い段階で明確にそう言える model の重要性が増している。

r/artificial が再び広めた BullshitBench v2、Claude が nonsense detection leaderboard の先頭へ

r/artificial が掘り起こしたもの

最新 leaderboard が示すもの

この結果をどう読むべきか

Related Articles

AnthropicのJ-space研究、Claude内部の隠れた目標を読む手がかりに

Claude Fable 5とMythos 5、米輸出管理解除で遅れていたアクセスを再開

GitLost、公開Issueからprivate repoへ届くAI agent権限の弱点