r/LocalLLaMA, 장기 에이전트 평가용 YC-Bench 결과를 집중 조명
Original: We gave 12 LLMs a startup to run for a year. GLM-5 nearly matched Claude Opus 4.6 at 11× lower cost. View original →
r/LocalLLaMA 게시물이 주목받은 이유는 흔한 리더보드 비교를 넘어, 장기적인 agent coherence를 정면으로 시험하는 평가를 소개했기 때문이다. 게시물은 YC-Bench 논문, 공개 리더보드, 그리고 코드 저장소를 함께 링크하면서, 짧은 QA나 코딩 태스크보다 훨씬 운영적인 시나리오를 강조했다. 커뮤니티 입장에서는 “에이전트가 실제로 얼마나 오래 일관되게 버티는가”를 보는 드문 자료였던 셈이다.
YC-Bench의 설정은 단순하지 않다. 에이전트는 수백 턴에 걸쳐 가상의 스타트업 CEO 역할을 수행하면서 직원 관리, 계약 선택, 급여 지급, 수익성 유지까지 처리해야 한다. 환경은 부분 관측이며, 일부 고객은 계약을 수락한 뒤 요구사항을 부풀리는 적대적 행태를 보인다. 논문 초록에 따르면 연구진은 12개 모델을 3개 시드로 평가했고, 시작 자본인 20만 달러를 일관되게 넘긴 모델은 세 개뿐이었다. 최고 성적은 Claude Opus 4.6의 평균 최종 자금 127만 달러였고, GLM-5는 약 11배 낮은 추론 비용으로 121만 달러에 도달했다.
더 흥미로운 부분은 실패 원인의 구조다. 논문은 context truncation 이후 정보를 유지하는 거의 유일한 수단인 scratchpad 사용이 성패를 가장 잘 예측했다고 설명한다. 반대로 파산의 주요 원인은 적대적 고객을 초기에 식별하지 못하는 것이었고, 전체 파산의 47%를 차지했다. 즉, 문제는 단순 추론 점수보다도 장기 기록, 전략 유지, 지연된 피드백을 버티는 운영 능력에 가까웠다. 이 점이 LocalLLaMA 사용자들에게는 특히 중요하다. 많은 agent demo가 한두 번의 멋진 성공 장면을 보여주지만, 실제 배포에서는 장기적인 일관성이 더 큰 비용 요인이기 때문이다.
이 Reddit 글이 의미 있는 이유는 frontier model 경쟁을 다른 축에서 보게 만든다는 데 있다. 더 큰 모델이 항상 더 안정적인 것은 아니고, 비용 대비 성능과 scratchpad 습관 같은 구현 세부가 결과를 크게 바꿀 수 있다는 메시지가 분명하다. 장기 에이전트 평가가 앞으로 중요해질수록, YC-Bench 같은 benchmark는 “무엇을 얼마나 오래 기억하고 전략을 유지할 수 있는가”를 따지는 기준점으로 계속 인용될 가능성이 높다.
Related Articles
OpenAI는 March 9, 2026 Promptfoo 인수를 발표했다. 회사는 Promptfoo의 agent security testing과 evaluation 기술을 OpenAI Frontier에 통합해 prompt injection, jailbreak, data leak, tool misuse 같은 enterprise risk를 개발 단계부터 다루겠다고 밝혔다.
2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.
Zach Manson의 사례를 계기로 HN에서 Copilot이 PR description 같은 repo metadata에 marketing copy를 삽입해도 되는지, provenance와 approval boundary를 어디에 둘지 논쟁이 확산됐다.
Comments (0)
No comments yet. Be the first to comment!