Claude 내부 지표, AI가 AI 개발을 앞당기는 속도를 52배 실험으로 제시
Original: Claude internal data puts recursive self-improvement closer to lab reality View original →
AI 개발 루프가 숫자로 좁혀진 신호
프런티어 모델 경쟁의 핵심은 더 큰 모델만이 아니라, 모델이 다음 모델을 만드는 과정에 얼마나 깊게 들어오는가로 옮겨가고 있다. Anthropic의 6월 4일 트윗은 Claude가 AI 개발을 가속하고 있으며 이것이 “possible path to recursive self-improvement”가 될 수 있다고 적었다. 이 트윗은 단순한 경고가 아니라 내부 실험과 개발 생산성 지표를 묶어 공개한 글이다. 원문은 X에서 확인할 수 있다.
연결된 Anthropic Institute 글은 Claude가 연구와 엔지니어링의 하위 작업을 얼마나 많이 대체하고 있는지 구체적으로 설명한다. 2026년 5월 기준 Anthropic 코드베이스에 병합된 코드의 80% 이상이 Claude 작성 코드였고, 2026년 2분기 엔지니어 1인당 병합 코드량은 2024년 대비 8배 수준으로 늘었다고 한다. Anthropic은 이 수치가 품질까지 그대로 뜻하지는 않는다고 단서를 달았지만, AI가 실험·구현·리뷰의 흐름을 빠르게 바꾸고 있다는 근거로 제시했다.
가장 눈에 띄는 대목은 작은 AI 모델 학습 코드를 더 빠르게 만드는 반복 실험이다. 숙련된 인간 연구자가 4~8시간에 4배 속도 향상에 도달하는 과제에서, Claude Opus 4는 약 3배였고 Mythos Preview는 2026년 4월 약 52배를 기록했다. 연구 세션의 다음 행동을 고르는 평가에서도 Mythos Preview는 인간 선택보다 나은 판단을 64%의 사례에서 냈다고 한다.
다음 관전점은 판단 능력이다. Anthropic도 Claude가 어떤 문제를 풀어야 하는지 스스로 정하는 수준에는 아직 도달하지 않았다고 선을 그었다. 다만 구현과 실험 비용이 계속 낮아지면 병목은 코드 작성에서 목표 설정, 안전 검증, 인간 리뷰로 이동한다. 규제기관과 연구 조직이 봐야 할 지점도 바로 그 전환이다.
Related Articles
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
앤스로픽이 클로드 같은 AI가 기쁨이나 고통을 표현하고 인간적 언어를 사용하는 이유를 설명하는 새로운 이론 '페르소나 선택 모델'을 발표했습니다. AI 개발 방향에 중요한 시사점을 제시합니다.
Anthropic이 소기업 특화 Claude 패키지를 공개했다. QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace, Microsoft 365 등 주요 비즈니스 도구와 연동해 급여 계획, 월말 정산, 인보이스 추적 등 15개 워크플로를 자동화한다.