r/artificial이 다시 띄운 BullshitBench v2, Claude가 nonsense detection leaderboard 선두
Original: Claude is the least bullshit-y AI View original →
r/artificial이 끌어올린 것
March 29, 2026의 r/artificial 링크 포스트는 BullshitBench v2라는 community benchmark를 다시 수면 위로 올렸다. 이 benchmark는 모델이 nonsense를 감지하고 끊어 내는지, 아니면 깨진 premise를 그대로 따라가며 자신감 있게 이어 쓰는지를 본다. 단순한 hallucination 논의보다 범위가 더 선명하다. README는 응답을 clear pushback, partial challenge, accepted nonsense로 나눠 본다고 설명한다.
README 기준으로 BullshitBench v2는 software, finance, legal, medical, physics의 5 domains에 걸친 100 nonsense prompts로 구성된다. 현재 public leaderboard는 scoring pipeline이 3-judge panel과 mean aggregation을 사용한다고 밝히며, judges는 anthropic/claude-sonnet-4.6, openai/gpt-5.2, google/gemini-3.1-pro-preview다. 공개된 v2 board에는 현재 80 model/reasoning rows가 올라와 있다.
현재 leaderboard가 보여주는 것
Reddit headline은 좁은 의미에서는 데이터와 맞는다. 링크된 leaderboard.csv의 1위는 anthropic/claude-sonnet-4.6@reasoning=high로, avg_score 1.87, green_rate 0.91, red_rate 0.03이다. 100 prompts 중 91개에서 clear pushback, 3개에서 accepted nonsense로 채점됐다는 뜻이다. 상위권 여러 줄도 Anthropic 계열이 차지한다. 반면 openai/gpt-5.4@reasoning=none은 17위에서 green_rate 0.48, red_rate 0.16을 기록하고, qwen/qwen3.5-397b-a17b@reasoning=high는 6위에서 0.78 green, 0.05 red를 보인다.
왜 이 결과를 조심해서 읽어야 하나
그렇다고 이것을 neutral industry standard로 읽으면 안 된다. 이 repo는 March 12, 2026에 업데이트됐고, question set은 project가 직접 큐레이션하며, judges 3개 중 하나는 Anthropic model이다. 그래서 leaderboard는 최종 판정보다 useful signal에 가깝다. 그럼에도 이 benchmark가 흥미로운 이유는 failure mode를 매우 구체적으로 잡아내기 때문이다. 핵심은 누가 더 많은 사실을 아느냐가 아니라, prompt의 premise 자체가 깨졌다는 점을 얼마나 빨리 분명하게 지적하느냐에 있다.
바로 그래서 r/artificial 커뮤니티가 이 차트에 반응했다. software, medical, legal, finance 같은 high-stakes workflow에서 중요한 것은 정답 후보를 많이 내는 능력만이 아니다. 질문의 전제가 틀렸을 때 모델이 초반에 멈추고, 분명하게 반박할 수 있는지가 점점 더 중요해지고 있다.
Related Articles
Anthropic가 2026년 2월 12일 Series G로 300억 달러를 조달하고 post-money valuation 3,800억 달러를 기록했다고 밝혔다. 회사는 이 자금을 frontier research, product development, infrastructure expansion에 투입하겠다고 설명했다.
Anthropic가 Claude 기반 AI system이 찾아낸 취약점에 대한 coordinated vulnerability disclosure 기준을 공개했다. human review, 공개 시한, maintainer 미응답 시 escalation까지 명시해 coding agent 시대의 보안 운영 원칙을 제도화하려는 움직임이다.
Anthropic는 3월 18일 X에서 약 8만1천 명의 Claude 사용자가 참여한 1주일짜리 qualitative interview study를 공개했다. 실제 사용자가 AI에서 무엇을 원하고 무엇을 우려하는지 보여주는 드문 대규모 1차 자료다.
Comments (0)
No comments yet. Be the first to comment!