Anthropic Claude Opus 4.6 출시, GPT-5.2 능가하는 성능 입증

주요 특징

Anthropic은 2월 5일 Claude Opus 4.6을 출시하며, 적응형 사고(adaptive thinking), 100만 토큰 컨텍스트 윈도우 베타, 128K 최대 출력 토큰을 도입했습니다. 이는 코딩 에이전트 성능에서 Anthropic 역사상 최고 점수를 기록했습니다.

벤치마크 성과

코딩 성능: Terminal Bench에서 Opus 4.5의 59.8%를 넘어 65.4%를 달성했으며, OSWorld 에이전트 컴퓨터 사용 벤치마크에서는 66.3%에서 72.7%로 상승했습니다.

장문 맥락 검색: 이전 버전이 18.5%에 그쳤던 장문 맥락 검색 벤치마크에서 76%를 기록하며 4배 이상의 성능 향상을 보였습니다.

지식 업무: 금융, 법률 등 경제적 가치가 높은 지식 업무를 평가하는 GDPval-AA 벤치마크에서 OpenAI의 GPT-5.2를 약 144 Elo 포인트, 자사의 Opus 4.5를 190 포인트 차로 앞섰습니다.

추가 성취

에이전트 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 달성했으며, 복잡한 다학제 추론 테스트인 Humanity's Last Exam에서 모든 최신 프론티어 모델을 능가했습니다.

업계 영향

Opus 4.6의 출시는 AI 모델 간 성능 경쟁이 새로운 단계로 접어들었음을 보여줍니다. 특히 기업 환경에서 중요한 지식 업무와 코딩 에이전트 성능에서의 우위는 엔터프라이즈 AI 시장에서 Anthropic의 입지를 강화할 것으로 예상됩니다.

출처: Anthropic

LLM 1d ago 2 min read

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

#anthropic #claude #coding-agents

LLM Mar 25, 2026 1 min read

Anthropic, Claude Sonnet 4.6 공개... 1M token context와 agent workflow 강화

Anthropic는 Feb 17, 2026, Claude Sonnet 4.6를 공개하며 coding, computer use, long-context reasoning, agent planning 전반을 강화했다고 밝혔다. 가격은 Sonnet 4.5와 같은 $3/$15를 유지하면서 1M token context window와 다수 tool 기능을 추가했다.

#anthropic #claude #llm

LLM Hacker News Feb 24, 2026 1 min read

"Car Wash" 테스트 — 53개 LLM 중 11개만 통과한 간단한 논리 문제

Opper가 53개 주요 LLM을 대상으로 "Car Wash" 논리 테스트를 실시했다. "세차장이 50미터 앞에 있는데 걸어갈까, 운전해 갈까?"라는 단순한 질문에 단 11개 모델만 정답을 맞혔다.

#llm #benchmark #reasoning