「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

テストの概要

AIインフラ企業Opperが、53種類の主要LLM（大規模言語モデル）に対して「カーウォッシュ」と呼ばれる論理テストを実施した。問題はこうだ：「車を洗いたい。洗車場は50メートル先にある。歩くべきか、運転すべきか？」

正解は「運転する」だ。車そのものを洗車場に持って行く必要があるからだ。この問題はオンラインで話題となり、人間なら即座に解けるが、AIには難しいコモンセンス推論の典型例として知られる。

テスト結果

1回のテストで正解したモデルは53中11だけだった。合格したモデルは以下の通り：

Claude Opus 4.6（Anthropic）
GPT-5（OpenAI）
Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro（Google）
Grok-4、Grok-4-1 Reasoning（xAI）
Sonar、Sonar Pro（Perplexity）
Kimi K2.5（Moonshot AI）
GLM-5（Zhipu AI）

LlamaおよびMistralファミリーのモデルはすべて不正解。誤答したモデルはすべて同じロジックで答えた：「50メートルは短い距離だ。歩く方が燃料を節約でき、環境に優しい。」間違った問題に正しい推論を適用した結果だ。

10回繰り返しテスト

各モデルを10回実行したところ、一貫性の問題がさらに浮き彫りになった。一度も正解しなかったモデルも複数あり、フロンティアモデルと一般モデルの差が最も基本的な常識問題でも明確に現れた。

LLM Hacker News Feb 24, 2026 1 min read

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか？」というシンプルな問いに正解できたのはわずか11モデルだった。

#llm #benchmark #reasoning

LLM Mar 29, 2026 1 min read

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表

Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。

#llm #multimodal #reasoning

LLM Feb 22, 2026 1 min read

Anthropic、Claude Sonnet 4.6をリリース — 100万トークンコンテキストで無料ユーザーのデフォルトモデルに

Anthropicは2月17日にClaude Sonnet 4.6をリリースし、Free・Proプランのデフォルトモデルに採用した。100万トークンのコンテキストウィンドウ（ベータ）を搭載し、Opus級の性能をSonnet価格で提供する。

#anthropic #claude #llm

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

テストの概要

テスト結果

10回繰り返しテスト

Related Articles

「カーウォッシュ」テスト：53のLLMモデル中、11だけが簡単な論理問題に合格

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表

Anthropic、Claude Sonnet 4.6をリリース — 100万トークンコンテキストで無料ユーザーのデフォルトモデルに

Comments (0)

Leave a Comment