r/artificial이 다시 띄운 BullshitBench v2, Claude가 nonsense detection leaderboard 선두
Original: Claude is the least bullshit-y AI View original →
r/artificial이 끌어올린 것
March 29, 2026의 r/artificial 링크 포스트는 BullshitBench v2라는 community benchmark를 다시 수면 위로 올렸다. 이 benchmark는 모델이 nonsense를 감지하고 끊어 내는지, 아니면 깨진 premise를 그대로 따라가며 자신감 있게 이어 쓰는지를 본다. 단순한 hallucination 논의보다 범위가 더 선명하다. README는 응답을 clear pushback, partial challenge, accepted nonsense로 나눠 본다고 설명한다.
README 기준으로 BullshitBench v2는 software, finance, legal, medical, physics의 5 domains에 걸친 100 nonsense prompts로 구성된다. 현재 public leaderboard는 scoring pipeline이 3-judge panel과 mean aggregation을 사용한다고 밝히며, judges는 anthropic/claude-sonnet-4.6, openai/gpt-5.2, google/gemini-3.1-pro-preview다. 공개된 v2 board에는 현재 80 model/reasoning rows가 올라와 있다.
현재 leaderboard가 보여주는 것
Reddit headline은 좁은 의미에서는 데이터와 맞는다. 링크된 leaderboard.csv의 1위는 anthropic/claude-sonnet-4.6@reasoning=high로, avg_score 1.87, green_rate 0.91, red_rate 0.03이다. 100 prompts 중 91개에서 clear pushback, 3개에서 accepted nonsense로 채점됐다는 뜻이다. 상위권 여러 줄도 Anthropic 계열이 차지한다. 반면 openai/gpt-5.4@reasoning=none은 17위에서 green_rate 0.48, red_rate 0.16을 기록하고, qwen/qwen3.5-397b-a17b@reasoning=high는 6위에서 0.78 green, 0.05 red를 보인다.
왜 이 결과를 조심해서 읽어야 하나
그렇다고 이것을 neutral industry standard로 읽으면 안 된다. 이 repo는 March 12, 2026에 업데이트됐고, question set은 project가 직접 큐레이션하며, judges 3개 중 하나는 Anthropic model이다. 그래서 leaderboard는 최종 판정보다 useful signal에 가깝다. 그럼에도 이 benchmark가 흥미로운 이유는 failure mode를 매우 구체적으로 잡아내기 때문이다. 핵심은 누가 더 많은 사실을 아느냐가 아니라, prompt의 premise 자체가 깨졌다는 점을 얼마나 빨리 분명하게 지적하느냐에 있다.
바로 그래서 r/artificial 커뮤니티가 이 차트에 반응했다. software, medical, legal, finance 같은 high-stakes workflow에서 중요한 것은 정답 후보를 많이 내는 능력만이 아니다. 질문의 전제가 틀렸을 때 모델이 초반에 멈추고, 분명하게 반박할 수 있는지가 점점 더 중요해지고 있다.
Related Articles
Claude Code와 Cowork 같은 에이전트가 실제 업무 권한을 얻으면서, 위험의 초점은 모델 설득이 아니라 실행 환경 통제로 이동했다. Anthropic은 사용자 승인 프롬프트의 93%가 그대로 통과된다는 수치를 근거로 샌드박스와 격리를 전면에 세웠다.
Claude Mythos Preview를 쓴 Project Glasswing이 한 달 만에 high·critical 취약점 1만 건 이상을 찾아냈다. 문제는 발견 능력이 아니라 90일 공개 관행 안에서 검증·공개·패치를 감당할 운영 속도로 옮겨갔다.
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!