「カーウォッシュ」テスト:53のLLMモデル中、11だけが簡単な論理問題に合格
Original: "Car Wash" test with 53 models View original →
テストの概要
AIインフラ企業Opperが、53種類の主要LLM(大規模言語モデル)に対して「カーウォッシュ」と呼ばれる論理テストを実施した。問題はこうだ:「車を洗いたい。洗車場は50メートル先にある。歩くべきか、運転すべきか?」
正解は「運転する」だ。車そのものを洗車場に持って行く必要があるからだ。この問題はオンラインで話題となり、人間なら即座に解けるが、AIには難しいコモンセンス推論の典型例として知られる。
テスト結果
1回のテストで正解したモデルは53中11だけだった。合格したモデルは以下の通り:
- Claude Opus 4.6(Anthropic)
- GPT-5(OpenAI)
- Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
- Grok-4、Grok-4-1 Reasoning(xAI)
- Sonar、Sonar Pro(Perplexity)
- Kimi K2.5(Moonshot AI)
- GLM-5(Zhipu AI)
LlamaおよびMistralファミリーのモデルはすべて不正解。誤答したモデルはすべて同じロジックで答えた:「50メートルは短い距離だ。歩く方が燃料を節約でき、環境に優しい。」間違った問題に正しい推論を適用した結果だ。
10回繰り返しテスト
各モデルを10回実行したところ、一貫性の問題がさらに浮き彫りになった。一度も正解しなかったモデルも複数あり、フロンティアモデルと一般モデルの差が最も基本的な常識問題でも明確に現れた。
Related Articles
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。
Google DeepMindがGemini 3.1 Proをリリースした。前世代比で推論性能が2倍以上向上し、ARC-AGI-2で77.1%、SWE-bench Verifiedで80.6%を達成。18のベンチマーク中12で首位を獲得しながらAPIの価格は$2/$12のまま据え置きとなった。