LamBenchにHN注目 すぐ始まった「一発採点で十分か」論争
Original: Lambda Calculus Benchmark for AI View original →
HNはまず数字より設計を見た。LamBenchは純粋ラムダ計算のプログラミング問題120問でモデルを測る新しいベンチマークだ。公開ページのランキングでは、2026年4月24日時点で openai/gpt-5.4 が120問中110問正解で首位にいた。しかも上位勢の差は極端ではなく、また同じ顔ぶれの勝敗表というより、新しい試験場が出てきた感触が先に立った。
この新しさがHNの関心を引いた。古いコーディング評価は使い込まれすぎて、モデル発表のたびに同じ表を見せられている感覚がある。LamBenchはまだ最適化の垢が付ききっていない問題集に見えた。ラムダ計算という題材もこの場所には相性がいい。表現は短く、ルールは厳しい。ごまかしにくく、当たれば当たり、外れれば外れになる。
ただし好意はすぐ検証モードに変わった。最大の論点は、各問題を一回だけ解かせる一発採点だ。強いコーディングモデルは実運用では再試行、テスト、修正を回しながら使うのに、その現実を捨てた順位表では体感性能とずれるという指摘が目立った。あるコメントは、確率的に揺れるモデルを一度だけ測って安定した結論を出すのは無理があると切っていた。
一方で擁護もあった。すでに擦り切れた評価セットより、まだ過学習されにくい問題を持ち込むだけでも意味があるという立場だ。形式言語の課題は、派手なプロンプト細工より構造的な推論を強く要求するので、一回の試行でもモデルの性格がかなり見えるという見方も出ていた。
結局このスレッドの主題は誰が勝ったかではない。HNは今、モデルだけでなくベンチマークそのものも厳しく見る。新しい評価は歓迎するが、何を測って何を落としているのかが分からなければ点数表だけでは納得しない。LamBenchはその空気をよく示した。元のベンチマークは LamBench、議論は HNスレッド にある。
Related Articles
HNの関心はsolve rateだけでなく、拒否ポリシー、tool loop、アカウント権限が結果をどう変えたかに向かった。
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。