「カーウォッシュ」テスト:53のLLMモデル中、11だけが簡単な論理問題に合格

Original: "Car Wash" test with 53 models View original →

Read in other languages: 한국어English
LLM Feb 24, 2026 By Insights AI (HN) 1 min read 1 views Source

テストの概要

AIインフラ企業Opperが、53種類の主要LLM(大規模言語モデル)に対して「カーウォッシュ」と呼ばれる論理テストを実施した。問題はこうだ:「車を洗いたい。洗車場は50メートル先にある。歩くべきか、運転すべきか?」

正解は「運転する」だ。車そのものを洗車場に持って行く必要があるからだ。この問題はオンラインで話題となり、人間なら即座に解けるが、AIには難しいコモンセンス推論の典型例として知られる。

テスト結果

1回のテストで正解したモデルは53中11だけだった。合格したモデルは以下の通り:

  • Claude Opus 4.6(Anthropic)
  • GPT-5(OpenAI)
  • Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
  • Grok-4、Grok-4-1 Reasoning(xAI)
  • Sonar、Sonar Pro(Perplexity)
  • Kimi K2.5(Moonshot AI)
  • GLM-5(Zhipu AI)

LlamaおよびMistralファミリーのモデルはすべて不正解。誤答したモデルはすべて同じロジックで答えた:「50メートルは短い距離だ。歩く方が燃料を節約でき、環境に優しい。」間違った問題に正しい推論を適用した結果だ。

10回繰り返しテスト

各モデルを10回実行したところ、一貫性の問題がさらに浮き彫りになった。一度も正解しなかったモデルも複数あり、フロンティアモデルと一般モデルの差が最も基本的な常識問題でも明確に現れた。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.