r/artificial이 다시 띄운 BullshitBench v2, Claude가 nonsense detection leaderboard 선두

r/artificial이 끌어올린 것

March 29, 2026의 r/artificial 링크 포스트는 BullshitBench v2라는 community benchmark를 다시 수면 위로 올렸다. 이 benchmark는 모델이 nonsense를 감지하고 끊어 내는지, 아니면 깨진 premise를 그대로 따라가며 자신감 있게 이어 쓰는지를 본다. 단순한 hallucination 논의보다 범위가 더 선명하다. README는 응답을 clear pushback, partial challenge, accepted nonsense로 나눠 본다고 설명한다.

README 기준으로 BullshitBench v2는 software, finance, legal, medical, physics의 5 domains에 걸친 100 nonsense prompts로 구성된다. 현재 public leaderboard는 scoring pipeline이 3-judge panel과 mean aggregation을 사용한다고 밝히며, judges는 anthropic/claude-sonnet-4.6, openai/gpt-5.2, google/gemini-3.1-pro-preview다. 공개된 v2 board에는 현재 80 model/reasoning rows가 올라와 있다.

현재 leaderboard가 보여주는 것

Reddit headline은 좁은 의미에서는 데이터와 맞는다. 링크된 leaderboard.csv의 1위는 anthropic/claude-sonnet-4.6@reasoning=high로, avg_score 1.87, green_rate 0.91, red_rate 0.03이다. 100 prompts 중 91개에서 clear pushback, 3개에서 accepted nonsense로 채점됐다는 뜻이다. 상위권 여러 줄도 Anthropic 계열이 차지한다. 반면 openai/gpt-5.4@reasoning=none은 17위에서 green_rate 0.48, red_rate 0.16을 기록하고, qwen/qwen3.5-397b-a17b@reasoning=high는 6위에서 0.78 green, 0.05 red를 보인다.

왜 이 결과를 조심해서 읽어야 하나

그렇다고 이것을 neutral industry standard로 읽으면 안 된다. 이 repo는 March 12, 2026에 업데이트됐고, question set은 project가 직접 큐레이션하며, judges 3개 중 하나는 Anthropic model이다. 그래서 leaderboard는 최종 판정보다 useful signal에 가깝다. 그럼에도 이 benchmark가 흥미로운 이유는 failure mode를 매우 구체적으로 잡아내기 때문이다. 핵심은 누가 더 많은 사실을 아느냐가 아니라, prompt의 premise 자체가 깨졌다는 점을 얼마나 빨리 분명하게 지적하느냐에 있다.

바로 그래서 r/artificial 커뮤니티가 이 차트에 반응했다. software, medical, legal, finance 같은 high-stakes workflow에서 중요한 것은 정답 후보를 많이 내는 능력만이 아니다. 질문의 전제가 틀렸을 때 모델이 초반에 멈추고, 분명하게 반박할 수 있는지가 점점 더 중요해지고 있다.

r/artificial이 다시 띄운 BullshitBench v2, Claude가 nonsense detection leaderboard 선두

r/artificial이 끌어올린 것

현재 leaderboard가 보여주는 것

왜 이 결과를 조심해서 읽어야 하나

Related Articles

Claude 에이전트 권한을 프롬프트 대신 샌드박스로 제한

AI가 찾은 중대 취약점 1만 건, 이제 병목은 패치 속도

Anthropic $65B 조달, Claude 경쟁의 단위가 compute로 이동

Comments (0)

Leave a Comment