「カーウォッシュ」テスト:53のLLMモデル中、11だけが簡単な論理問題に合格
Original: "Car Wash" test with 53 models View original →
テストの概要
AIインフラ企業Opperが、53種類の主要LLM(大規模言語モデル)に対して「カーウォッシュ」と呼ばれる論理テストを実施した。問題はこうだ:「車を洗いたい。洗車場は50メートル先にある。歩くべきか、運転すべきか?」
正解は「運転する」だ。車そのものを洗車場に持って行く必要があるからだ。この問題はオンラインで話題となり、人間なら即座に解けるが、AIには難しいコモンセンス推論の典型例として知られる。
テスト結果
1回のテストで正解したモデルは53中11だけだった。合格したモデルは以下の通り:
- Claude Opus 4.6(Anthropic)
- GPT-5(OpenAI)
- Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
- Grok-4、Grok-4-1 Reasoning(xAI)
- Sonar、Sonar Pro(Perplexity)
- Kimi K2.5(Moonshot AI)
- GLM-5(Zhipu AI)
LlamaおよびMistralファミリーのモデルはすべて不正解。誤答したモデルはすべて同じロジックで答えた:「50メートルは短い距離だ。歩く方が燃料を節約でき、環境に優しい。」間違った問題に正しい推論を適用した結果だ。
10回繰り返しテスト
各モデルを10回実行したところ、一貫性の問題がさらに浮き彫りになった。一度も正解しなかったモデルも複数あり、フロンティアモデルと一般モデルの差が最も基本的な常識問題でも明確に現れた。
Related Articles
Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。
AnthropicはFebruary 17, 2026にClaude Sonnet 4.6を発表し、betaの1M token context windowを追加した。API価格を$3/$15 per million tokensに据え置いたままclaude.aiとClaude Coworkの標準モデルを更新し、より多くの実務ワークロードをSonnet系へ寄せる意図を示した。
Google AI DevelopersがAndroid開発向けLLM評価基盤のAndroid Benchを公開した。初回結果ではGemini 3.1 Proが首位となり、benchmark、dataset、test harnessも公開された。
Comments (0)
No comments yet. Be the first to comment!