HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
#llm
RSS FeedHN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
HN은 성능표보다 "왜 1줄 고칠 일을 함수 재작성으로 키우느냐"에 더 크게 반응했다. 코딩 모델의 과한 수정을 계량화한 글이, 리뷰 피로를 수치로 옮겼다는 평가다.
Hacker News가 반응한 핵심은 Copilot Individual 변경 자체보다, agentic coding이 구독 가격 안에 숨겨 두기 어려운 compute 비용을 만들고 있다는 신호다.
HN은 Kimi K2.6을 benchmark 표 하나보다 “open weights coding agent가 긴 작업을 버티는가”라는 질문으로 읽었다. 12시간, 13시간짜리 coding 사례와 agent swarm 주장이 관심을 끌었고, 동시에 실제 속도와 benchmark 과장 가능성도 바로 검증대에 올랐다.
r/singularity가 뜨겁게 반응한 이유는 권위 있는 연구자가 LLM 의식 가능성을 강하게 낮춰 봤기 때문이 아니라, 그 주장이 곧바로 철학·물리·계산의 정의 싸움으로 번졌기 때문이다. Alexander Lerchner의 글은 computation이 mapmaker에 의존한다고 주장했고, 댓글은 Chinese Room과 consciousness 정의 문제로 맞붙었다.
HN에서 반응이 컸던 이유는 막연한 사용량 불안을 숫자로 바꿨기 때문이다. 익명 제출 541건을 모은 Tokenomics는 같은 요청이 Opus 4.7에서 평균 466 request token으로 계산되어 Opus 4.6의 349개보다 약 38.1% 늘었다고 보여줬고, 댓글은 이 수치가 실제 한도 소진 경험과 어떻게 맞물리는지 따졌다.
HN은 “AI cybersecurity is not proof of work”를 단순한 anti-hype 글로 읽지 않았다. 핵심 논쟁은 더 많은 GPU와 더 긴 sampling이 bugs를 찾는 충분조건인지, 아니면 model capability와 threat model이 병목인지였다.
r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.
새 arXiv 논문은 낮은 평균 오류율 뒤에 LLM judge의 per-document 불안정성이 숨어 있음을 보였다. SummEval에서 문서 33-67%가 directed 3-cycle을 하나 이상 보였고, prediction set width는 absolute error와 강하게 맞물렸다.
HN 댓글의 열기는 새 model 이름보다 adaptive thinking, token 변화, safety filter가 실제 개발 흐름을 흔들지에 몰렸다. Opus 4.7은 높은 기대와 동시에 최근 Claude 품질 논쟁의 후폭풍을 맞고 있다.
Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.