람다 계산법 벤치마크에 HN 관심 집중, 바로 붙은 '원샷 채점' 논쟁
Original: Lambda Calculus Benchmark for AI View original →
HN은 숫자보다 방식부터 봤다. LamBench는 순수 람다 계산법 프로그래밍 문제 120개로 모델을 겨루는 새 벤치마크다. 공개 페이지에는 실시간 순위표가 붙어 있고, 2026년 4월 24일 기준 맨 위에는 120문제 중 110개를 맞힌 openai/gpt-5.4가 올라 있었다. 상위권 점수 차이도 아주 크지 않아, 익숙한 한 모델 독주 그림보다 새 시험장이 열렸다는 감각이 먼저 만들어졌다.
HN이 반응한 이유도 여기에 있다. 오래된 코딩 벤치마크는 너무 많이 돌려서 이제는 출시 행사 부속품처럼 보인다는 피로감이 이미 크다. 반면 LamBench는 아직 학습과 튜닝이 덜 묻은 문제 세트처럼 읽혔다. 람다 계산법이라는 형식도 이 커뮤니티 취향에 잘 맞는다. 표현은 짧고 규칙은 빡빡하다. 얼버무리며 넘어가기 어렵고, 맞으면 맞고 틀리면 틀린다.
하지만 호감은 오래 가지 않았다. 댓글은 곧바로 평가 방식으로 옮겨갔다. 가장 큰 쟁점은 문제당 한 번만 시도하는 원샷 채점이다. 강한 코딩 모델을 실제로 쓰는 방식은 재시도, 테스트 피드백, 중간 수정을 돌리는 반복 루프인데, 그 현실을 빼고 순위를 매기면 체감 성능과 멀어질 수 있다는 지적이 많았다. 어떤 댓글은 확률적으로 흔들리는 모델을 한 번만 재서 결론 내리려면 표본이 너무 얇다고 잘라 말했다.
반대편 의견도 있었다. 이미 닳아버린 벤치마크 대신 아직 과적합이 덜 된 문제를 들이대는 것만으로도 의미가 있다는 주장이다. 형식 언어 문제는 프롬프트 꾸미기보다 구조적 추론을 더 세게 요구하므로, 한 번의 시도에서도 모델 성격이 꽤 드러난다는 반응이 나왔다.
결국 이 스레드의 핵심은 누가 1등인가가 아니었다. HN은 이제 모델 점수만큼 벤치마크 설계도 심문한다. 새 평가가 나오면 반가워하지만, 무엇을 재고 무엇을 놓쳤는지 먼저 따진다. LamBench는 그 긴장을 그대로 보여줬다. 새 시험은 필요하다. 다만 점수표 하나로는 아무도 쉽게 설득되지 않는다. 원문 벤치마크는 LamBench, 커뮤니티 반응은 HN 스레드에서 이어졌다.
Related Articles
Anthropic의 이번 실험이 중요한 이유는 모델 성능이 곧 돈이 되는 장면을 보여줬기 때문이다. 직원 69명이 참여한 사내 시장에서 Claude 에이전트는 186건, 4,000달러가 넘는 거래를 성사시켰고, Opus 쪽 사용자는 더 좋은 가격을 받아도 체감상 불공정하다고 느끼지 않았다.
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
Comments (0)
No comments yet. Be the first to comment!