"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제
Original: "Car Wash" test with 53 models View original →
테스트 개요
AI 기업 Opper가 53개의 주요 LLM(대형 언어 모델)을 대상으로 이른바 "Car Wash" 논리 테스트를 실시했다. 이 테스트는 인터넷에서 화제가 된 간단한 논리 문제다: "나는 세차하고 싶다. 세차장이 50미터 앞에 있다. 걸어갈까, 운전해 갈까?"
정답은 명백히 '운전'이다. 차를 세차장에 가져가야 하기 때문이다. 하지만 대부분의 AI는 거리에 집착해 '50미터 거리는 걷기에 충분하다'는 잘못된 논리를 전개했다.
테스트 결과
단일 실행 테스트에서 53개 모델 중 11개만 정답을 맞혔다. 정답을 맞힌 모델은 다음과 같다:
- Claude Opus 4.6 (Anthropic)
- GPT-5 (OpenAI)
- Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro (Google)
- Grok-4, Grok-4-1 Reasoning (xAI)
- Sonar, Sonar Pro (Perplexity)
- Kimi K2.5 (Moonshot AI)
- GLM-5 (Zhipu AI)
반면 모든 Llama 및 Mistral 계열 모델은 실패했다. 오답을 낸 모델들은 모두 같은 논리 패턴을 보였다: "50미터는 짧은 거리다. 걷는 것이 연료를 절약하고 환경에 좋다." 즉 틀린 문제에 대해 올바른 추론을 한 셈이다.
10회 반복 테스트
같은 모델을 10번 반복 실행한 결과, 일관성 문제가 더욱 두드러졌다. 일부 모델은 단 한 번도 정답을 맞히지 못했고, 일부는 무작위적인 결과를 보였다. Perplexity의 Sonar와 Sonar Pro는 정답을 맞혔지만 엉뚱한 이유(EPA 연구 인용, 음식 생산 에너지까지 계산)를 들어 우려스러운 결과를 남겼다.
시사점
이 테스트는 현재 LLM의 기초 논리 추론 능력에 대한 의문을 제기한다. 고성능 모델(Claude Opus, GPT-5)과 일반 모델 간의 격차가 가장 단순한 상식 문제에서도 드러난다는 점이 눈길을 끈다.
Related Articles
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Google DeepMind가 Gemini 3.1 Pro를 출시했다. 전작 대비 추론 성능이 2배 이상 향상됐으며 ARC-AGI-2에서 77.1%를 달성했다. 18개 추적 벤치마크 중 12개에서 1위를 기록하면서 API 가격은 $2/$12로 그대로 유지된다.