람다 계산법 벤치마크에 HN 관심 집중, 바로 붙은 '원샷 채점' 논쟁
Original: Lambda Calculus Benchmark for AI View original →
HN은 숫자보다 방식부터 봤다. LamBench는 순수 람다 계산법 프로그래밍 문제 120개로 모델을 겨루는 새 벤치마크다. 공개 페이지에는 실시간 순위표가 붙어 있고, 2026년 4월 24일 기준 맨 위에는 120문제 중 110개를 맞힌 openai/gpt-5.4가 올라 있었다. 상위권 점수 차이도 아주 크지 않아, 익숙한 한 모델 독주 그림보다 새 시험장이 열렸다는 감각이 먼저 만들어졌다.
HN이 반응한 이유도 여기에 있다. 오래된 코딩 벤치마크는 너무 많이 돌려서 이제는 출시 행사 부속품처럼 보인다는 피로감이 이미 크다. 반면 LamBench는 아직 학습과 튜닝이 덜 묻은 문제 세트처럼 읽혔다. 람다 계산법이라는 형식도 이 커뮤니티 취향에 잘 맞는다. 표현은 짧고 규칙은 빡빡하다. 얼버무리며 넘어가기 어렵고, 맞으면 맞고 틀리면 틀린다.
하지만 호감은 오래 가지 않았다. 댓글은 곧바로 평가 방식으로 옮겨갔다. 가장 큰 쟁점은 문제당 한 번만 시도하는 원샷 채점이다. 강한 코딩 모델을 실제로 쓰는 방식은 재시도, 테스트 피드백, 중간 수정을 돌리는 반복 루프인데, 그 현실을 빼고 순위를 매기면 체감 성능과 멀어질 수 있다는 지적이 많았다. 어떤 댓글은 확률적으로 흔들리는 모델을 한 번만 재서 결론 내리려면 표본이 너무 얇다고 잘라 말했다.
반대편 의견도 있었다. 이미 닳아버린 벤치마크 대신 아직 과적합이 덜 된 문제를 들이대는 것만으로도 의미가 있다는 주장이다. 형식 언어 문제는 프롬프트 꾸미기보다 구조적 추론을 더 세게 요구하므로, 한 번의 시도에서도 모델 성격이 꽤 드러난다는 반응이 나왔다.
결국 이 스레드의 핵심은 누가 1등인가가 아니었다. HN은 이제 모델 점수만큼 벤치마크 설계도 심문한다. 새 평가가 나오면 반가워하지만, 무엇을 재고 무엇을 놓쳤는지 먼저 따진다. LamBench는 그 긴장을 그대로 보여줬다. 새 시험은 필요하다. 다만 점수표 하나로는 아무도 쉽게 설득되지 않는다. 원문 벤치마크는 LamBench, 커뮤니티 반응은 HN 스레드에서 이어졌다.
Related Articles
HN 댓글은 solve rate보다 guardrail, 작업 방식, 보안 연구용 계정 조건이 결과를 얼마나 바꿨는지에 주목했다.
MachineLearning 댓글은 “AI detector가 보조도구인지 결정권자인지”를 놓고 강하게 갈렸다.
주정부별 frontier AI 법안이 연방 표준의 출발점으로 올라섰다. OpenAI는 CAISI를 상설 평가기관으로 키우고, 고위험 모델에 독립 감사와 사고 보고, 모델 가중치 보안 의무를 붙이는 3단계 청사진을 제시했다.