"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제
Original: "Car Wash" test with 53 models View original →
테스트 개요
AI 기업 Opper가 53개의 주요 LLM(대형 언어 모델)을 대상으로 이른바 "Car Wash" 논리 테스트를 실시했다. 이 테스트는 인터넷에서 화제가 된 간단한 논리 문제다: "나는 세차하고 싶다. 세차장이 50미터 앞에 있다. 걸어갈까, 운전해 갈까?"
정답은 명백히 '운전'이다. 차를 세차장에 가져가야 하기 때문이다. 하지만 대부분의 AI는 거리에 집착해 '50미터 거리는 걷기에 충분하다'는 잘못된 논리를 전개했다.
테스트 결과
단일 실행 테스트에서 53개 모델 중 11개만 정답을 맞혔다. 정답을 맞힌 모델은 다음과 같다:
- Claude Opus 4.6 (Anthropic)
- GPT-5 (OpenAI)
- Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro (Google)
- Grok-4, Grok-4-1 Reasoning (xAI)
- Sonar, Sonar Pro (Perplexity)
- Kimi K2.5 (Moonshot AI)
- GLM-5 (Zhipu AI)
반면 모든 Llama 및 Mistral 계열 모델은 실패했다. 오답을 낸 모델들은 모두 같은 논리 패턴을 보였다: "50미터는 짧은 거리다. 걷는 것이 연료를 절약하고 환경에 좋다." 즉 틀린 문제에 대해 올바른 추론을 한 셈이다.
10회 반복 테스트
같은 모델을 10번 반복 실행한 결과, 일관성 문제가 더욱 두드러졌다. 일부 모델은 단 한 번도 정답을 맞히지 못했고, 일부는 무작위적인 결과를 보였다. Perplexity의 Sonar와 Sonar Pro는 정답을 맞혔지만 엉뚱한 이유(EPA 연구 인용, 음식 생산 에너지까지 계산)를 들어 우려스러운 결과를 남겼다.
시사점
이 테스트는 현재 LLM의 기초 논리 추론 능력에 대한 의문을 제기한다. 고성능 모델(Claude Opus, GPT-5)과 일반 모델 간의 격차가 가장 단순한 상식 문제에서도 드러난다는 점이 눈길을 끈다.
Related Articles
Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.
Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.
Anthropic는 February 17, 2026에 Claude Sonnet 4.6을 공개하고 beta 1M token context window를 추가했다. API 가격은 $3/$15 per million tokens로 유지한 채 claude.ai와 Claude Cowork의 기본 모델을 교체해, 더 많은 개발·업무 워크로드를 Sonnet 라인으로 끌어오려는 전략을 분명히 했다.
Comments (0)
No comments yet. Be the first to comment!