Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

농담이지만 진지해진 benchmark

Simon Willison의 Qwen3.6 pelican 글은 Hacker News에서 399점과 댓글 83개를 모았다. 이유는 단순한 웃음거리가 아니라 LLM 평가의 불편한 지점을 건드렸기 때문이다. 과제는 일부러 우스꽝스럽다. 모델에게 pelican이 bicycle을 타는 SVG를 그리라고 시킨다. 이번에는 MacBook Pro M5에서 로컬로 돌린 20.9GB quantized Qwen3.6-35B-A3B가 Claude Opus 4.7보다 더 만족스러운 그림을 냈다. Willison은 이 테스트가 견고한 benchmark가 아니라고 선을 그었지만, HN에서는 곧바로 무엇을 평가해야 하느냐는 논쟁이 이어졌다.

핵심은 Qwen이 새 그림 테스트에서 이겼다는 사실 자체가 아니다. 같은 날 여러 대형 모델 소식이 나온 상황에서, local model 사용자들은 open model과 quantized model이 어디까지 따라왔는지 보여주는 구체적 신호를 찾고 있었다. SVG 한 장은 공유하기 쉽고, 눈으로 판단하기 쉽고, 반박하기도 쉽다. 그래서 모두가 한계를 알면서도 강한 커뮤니티 반응을 만든다.

HN의 반론도 빨랐다

댓글에서는 backup flamingo test가 제목만큼 단순하지 않다는 지적이 나왔다. 어떤 사용자는 Opus 결과가 물리적 구조를 더 잘 따랐다고 봤고, 다른 사용자는 Qwen의 스타일과 표현력을 높게 봤다. 더 기술적인 반론도 있었다. 어려운 coding task 기준으로 보면 Opus가 여전히 훨씬 앞선다는 비교가 제시됐고, pelican 결과를 35B local model이 전반적으로 더 강하다는 증거로 읽어서는 안 된다는 것이다.

바로 그 갈라짐이 이 글의 재미다. 보기 좋은 출력은 task fit 논의를 쉽게 흐린다. SVG 생성, instruction following, spatial reasoning, coding, multi-turn 수정은 서로 다른 능력이다. 모델이 첫 시도에서 매력적인 이미지를 만들 수 있어도, 사용자가 작은 수정을 요구하는 순간 전혀 다른 약점이 드러날 수 있다. HN은 이 toy와 tool 사이의 간격을 계속 파고들었다.

왜 중요한가

Pelican test는 커뮤니티 온도계에 가깝다. local inference에 대한 기대, model card식 benchmark에 대한 불신, 그리고 실제 사용감과 공식 수치 사이의 차이를 동시에 드러낸다. Qwen3.6-35B-A3B가 이런 관심을 받은 것은 quantized model이 enthusiast hardware에서 돌아갈 때 얼마나 빨리 실무 대화에 들어오는지도 보여준다.

차분하게 보면 결론은 간단하다. Qwen은 기억에 남는 demo win을 얻었지만, Opus 4.7을 전반적으로 이겼다고 말할 수는 없다. 다만 반응 자체는 중요하다. 개발자들은 점점 작은 개인 테스트를 반복하며 모델을 판단한다. 그 테스트들은 지저분하고 편향돼 있으며 가끔은 웃기다. 하지만 신뢰가 형성되는 현장이기도 하다.

Original post · Hacker News discussion

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

농담이지만 진지해진 benchmark

HN의 반론도 빨랐다

왜 중요한가

Related Articles

Claude Opus 4.8 fast mode, 2.5배 속도와 3분의 1 가격으로 재조정

Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Claude Opus 4.8, 큰 도약보다 agent 작업 안정성에 모인 관심

Comments (0)

Leave a Comment