코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
#coding-agents
RSS FeedxAI가 Composer 2.5를 Grok Build 안에 넣었다. 공식 트윗은 복잡한 지시와 장기 작업에 강한 모델이라고 설명했고, 64만 회 이상 조회되며 개발자 도구 경쟁을 키웠다.
AI coding agent 시장에서 독립 플레이어가 아직 끝나지 않았다는 신호다. Cognition은 $1B 이상을 조달해 valuation $26B를 기록했고, Devin의 run-rate revenue는 $492M까지 커졌다고 밝혔다.
오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다.
xAI의 다음 Grok 기반 모델이 현재 운영 모델보다 3배 큰 1.5T 규모로 학습을 마쳤다. Cursor 데이터가 추가됐고 공개 전 fine-tuning과 RL 단계가 남았다.
OpenAI가 코딩 에이전트를 자율 운용하는 오케스트레이션 레이어 Symphony를 오픈소스로 공개했다. Linear 이슈보드를 제어 플레인으로 삼아 각 태스크마다 에이전트를 자동 실행하고 PR 생성까지 처리한다.
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
LocalLLaMA에서 675댓글이 붙은 이유는 단순한 “로컬 모델 별로” 한마디가 아니었다. 과장된 기대를 걷어내자는 공감과, 그래도 하니스와 설정을 분리해서 봐야 한다는 반론이 한 스레드 안에서 정면충돌했다.
LocalLLaMA가 뜨거웠던 이유는 절대 점수만이 아니었다. 2026년 4월 28일 올라온 이 글은 Qwen 3.6-27B의 Terminal-Bench 2.0 38.2%를 late-2025 frontier 수준과 연결했고, 그 순간 로컬 코딩은 장난감이 아니라 배치 옵션으로 읽히기 시작했다.
HN은 EvanFlow를 새 에이전트 장난감보다, 통제 안 되는 자동화를 묶어두는 장치로 읽었다. TDD 자체보다도 체크포인트, 통합 테스트, 자동 커밋 금지가 더 크게 반응을 만들었다.
HN은 이번 글을 벤치마크 보고서보다 사실상의 부고장처럼 읽었다. 누가 몇 점을 찍었는지보다, 오염된 문제와 틀어진 테스트가 코딩 리더보드를 얼마나 빨리 무력화하는지가 더 큰 이야기였다.