xAI가 Grok Build CLI의 기반 모델을 API 베타로 열며 가격을 전면에 세웠다. 입력 100만 토큰당 $1, 출력 100만 토큰당 $2는 코딩 에이전트 비용 경쟁을 직접 겨냥한 수치다.
xAI가 Grok Build CLI의 기반 모델을 API 베타로 열며 가격을 전면에 세웠다. 입력 100만 토큰당 $1, 출력 100만 토큰당 $2는 코딩 에이전트 비용 경쟁을 직접 겨냥한 수치다.
xAI가 에이전트 CLI 도구 'Grok Build'의 얼리 베타를 SuperGrok Heavy 구독자에게 공개했다. 코딩, 앱 제작, 워크플로 자동화를 터미널에서 자연어로 처리하며, 발표 트윗은 41M 조회수를 기록했다.
로컬에서 굴릴 수 있는 오픈웨이트 코딩 모델은 아직 드물다. Poolside는 33B 총량·3B 활성 MoE인 Laguna XS.2를 1GPU 구동 모델로 내놓았고, 기술 글에서는 SWE-bench Pro 44.5%를 제시했다.
HN은 버그 자체보다 먼저 돈 새는 구조에 반응했다. Claude Managed Agents가 파일을 읽을 때마다 malware reminder를 붙이고, 그 뒤 코드 수정까지 거부하는 사례가 나오자, 토큰 비용과 숨겨진 harness 신뢰를 둘러싼 논쟁으로 번졌다.
이번 이슈는 단순 장애 공지가 아니다. GitHub는 2025년 10월 시작한 10배 증설 계획을 2026년 2월 30배 규모로 다시 잡았고, 4월 23일 사고에서는 230개 저장소와 2,092개 PR이 영향권에 들어갔다.
HN은 구독료 동결보다 더 큰 신호를 읽었다. 2026년 4월 27일 GitHub가 긴 에이전트 코딩 세션의 비용을 더는 정액으로 숨길 수 없다고 인정했고, Copilot도 결국 토큰 계산대로 간다는 반응이 스레드의 중심이었다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
OpenAI가 내세운 핵심은 단순 성능 업데이트가 아니다. Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%와 함께 GPT-5.4급 지연을 유지한다고 밝히며, 길고 지저분한 작업을 맡기는 코딩 에이전트 경쟁의 기준을 다시 올렸다.
Hacker News에서 크게 번진 Claude Code quota 논란은 단순한 사용량 불만이 아니라, 1M-context agent workflow에서 prompt caching, background session, auto-compact가 실제 한도 계산에 어떻게 반영되는지 묻는 사례가 됐다. GitHub issue 작성자는 April 9, 2026 측정치를 공개했고, 토론은 cache_read accounting과 quota transparency 문제로 확장됐다.
Hacker News에서 주목한 Z.ai의 GLM-5.1은 one-shot 성능보다 오래 버티는 agentic work를 전면에 세운다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5를 제시했고, 수백 번 iteration과 수천 번 tool call을 거쳐 계속 개선되는 long-horizon 실험도 함께 공개했다.
Cursor가 Composer 2를 어떻게 학습했는지 설명하는 기술 보고서를 공개했다. 회사는 continued pretraining과 대규모 reinforcement learning을 결합해 CursorBench 61.3, Terminal-Bench 61.7, SWE-bench Multilingual 73.7을 기록했다고 밝혔다.
OpenAI Developers는 2026년 3월 29일 X에서 Codex Security를 소개하며 취약점 탐지, 검증, 수정까지 지원하겠다고 밝혔다. AI 코딩 도구가 애플리케이션 보안 워크플로우로 확장되고 있음을 보여주는 신호다.