「カーウォッシュ」テスト:53のLLMモデル中、11だけが簡単な論理問題に合格
Original: "Car Wash" test with 53 models View original →
テストの概要
AIインフラ企業Opperが、53種類の主要LLM(大規模言語モデル)に対して「カーウォッシュ」と呼ばれる論理テストを実施した。問題はこうだ:「車を洗いたい。洗車場は50メートル先にある。歩くべきか、運転すべきか?」
正解は「運転する」だ。車そのものを洗車場に持って行く必要があるからだ。この問題はオンラインで話題となり、人間なら即座に解けるが、AIには難しいコモンセンス推論の典型例として知られる。
テスト結果
1回のテストで正解したモデルは53中11だけだった。合格したモデルは以下の通り:
- Claude Opus 4.6(Anthropic)
- GPT-5(OpenAI)
- Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
- Grok-4、Grok-4-1 Reasoning(xAI)
- Sonar、Sonar Pro(Perplexity)
- Kimi K2.5(Moonshot AI)
- GLM-5(Zhipu AI)
LlamaおよびMistralファミリーのモデルはすべて不正解。誤答したモデルはすべて同じロジックで答えた:「50メートルは短い距離だ。歩く方が燃料を節約でき、環境に優しい。」間違った問題に正しい推論を適用した結果だ。
10回繰り返しテスト
各モデルを10回実行したところ、一貫性の問題がさらに浮き彫りになった。一度も正解しなかったモデルも複数あり、フロンティアモデルと一般モデルの差が最も基本的な常識問題でも明確に現れた。
Related Articles
Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。
Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。
Anthropicは2月17日にClaude Sonnet 4.6をリリースし、Free・Proプランのデフォルトモデルに採用した。100万トークンのコンテキストウィンドウ(ベータ)を搭載し、Opus級の性能をSonnet価格で提供する。
Comments (0)
No comments yet. Be the first to comment!