"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제

테스트 개요

AI 기업 Opper가 53개의 주요 LLM(대형 언어 모델)을 대상으로 이른바 "Car Wash" 논리 테스트를 실시했다. 이 테스트는 인터넷에서 화제가 된 간단한 논리 문제다: "나는 세차하고 싶다. 세차장이 50미터 앞에 있다. 걸어갈까, 운전해 갈까?"

정답은 명백히 '운전'이다. 차를 세차장에 가져가야 하기 때문이다. 하지만 대부분의 AI는 거리에 집착해 '50미터 거리는 걷기에 충분하다'는 잘못된 논리를 전개했다.

테스트 결과

단일 실행 테스트에서 53개 모델 중 11개만 정답을 맞혔다. 정답을 맞힌 모델은 다음과 같다:

Claude Opus 4.6 (Anthropic)
GPT-5 (OpenAI)
Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro (Google)
Grok-4, Grok-4-1 Reasoning (xAI)
Sonar, Sonar Pro (Perplexity)
Kimi K2.5 (Moonshot AI)
GLM-5 (Zhipu AI)

반면 모든 Llama 및 Mistral 계열 모델은 실패했다. 오답을 낸 모델들은 모두 같은 논리 패턴을 보였다: "50미터는 짧은 거리다. 걷는 것이 연료를 절약하고 환경에 좋다." 즉 틀린 문제에 대해 올바른 추론을 한 셈이다.

10회 반복 테스트

같은 모델을 10번 반복 실행한 결과, 일관성 문제가 더욱 두드러졌다. 일부 모델은 단 한 번도 정답을 맞히지 못했고, 일부는 무작위적인 결과를 보였다. Perplexity의 Sonar와 Sonar Pro는 정답을 맞혔지만 엉뚱한 이유(EPA 연구 인용, 음식 생산 에너지까지 계산)를 들어 우려스러운 결과를 남겼다.

시사점

이 테스트는 현재 LLM의 기초 논리 추론 능력에 대한 의문을 제기한다. 고성능 모델(Claude Opus, GPT-5)과 일반 모델 간의 격차가 가장 단순한 상식 문제에서도 드러난다는 점이 눈길을 끈다.

"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제

테스트 개요

테스트 결과

10회 반복 테스트

시사점

Related Articles

Claude Fable 5, Mythos급 성능을 안전장치 뒤에 건 일반 공개

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두

Google DeepMind, Gemini 3.1 Pro 출시 — ARC-AGI-2 77.1% 달성, 추론 성능 2배 향상