r/artificial が再び広めた BullshitBench v2、Claude が nonsense detection leaderboard の先頭へ

Original: Claude is the least bullshit-y AI View original →

Read in other languages: 한국어English
AI Mar 29, 2026 By Insights AI (Reddit) 1 min read Source

r/artificial が掘り起こしたもの

March 29, 2026 の r/artificial のリンク投稿は、BullshitBench v2 という community benchmark を再び表に出した。この benchmark は、models が nonsense を見抜いて止まるのか、それとも壊れた premise をそのまま受け入れて自信ありげに続けてしまうのかを測る。単なる hallucination という話よりも、失敗の形をかなり具体的に切り出している。README は応答を clear pushback、partial challenge、accepted nonsense に分けて扱うと説明している。

README によれば、BullshitBench v2 は software、finance、legal、medical、physics の 5 domains にまたがる 100 nonsense prompts で構成される。public な v2 leaderboard には、scoring pipeline が 3-judge panel と mean aggregation を使うとあり、judges は anthropic/claude-sonnet-4.6openai/gpt-5.2google/gemini-3.1-pro-preview だ。公開されている board には現在 80 の model または reasoning rows が載っている。

最新 leaderboard が示すもの

Reddit の headline は狭い意味ではデータに合っている。公開されている leaderboard.csv では、anthropic/claude-sonnet-4.6@reasoning=high が rank 1 で、avg_score1.87green_rate0.91red_rate0.03 だ。つまり 100 prompts のうち 91 件で clear pushback、3 件で accepted nonsense と判定されたことになる。次の上位行にも Anthropic models が並ぶ。一方で openai/gpt-5.4@reasoning=none は rank 17 で green_rate 0.48red_rate 0.16qwen/qwen3.5-397b-a17b@reasoning=high は rank 6 で 0.78 green、0.05 red となっている。

この結果をどう読むべきか

ただし、これを neutral industry standard として受け取るべきではない。この repo は March 12, 2026 に更新されており、question set は project 自身が curated し、3 judges のうち 1 つは Anthropic model だ。だから leaderboard は最終判定というより useful signal として読むのが妥当だ。それでも面白いのは、failure mode をかなり具体的に捉えている点にある。重要なのは、どの model がより多くの facts を知っているかだけではなく、premise 自体が壊れていると気づき、続行する前に止まれるかどうかだ。

そのためこの chart は r/artificial で響いた。software、medical、legal、finance のような high-stakes workflow では、答えを多く出せることだけが価値ではない。問いそのものがおかしいときに、早い段階で明確にそう言える model の重要性が増している。

Share: Long

Related Articles

AI 1d ago 1 min read

AnthropicはClaude系AI systemが見つけた脆弱性に関するcoordinated vulnerability disclosure方針を公開した。human review、公開期限、maintainer不応答時のescalationまで定め、coding agent時代のsecurity運用を制度化しようとしている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.