#benchmarks

LLM 1d ago 2 min read

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

#anthropic #claude #coding-agents

LLM X/Twitter Jul 19, 2026 1 min read

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

보안 코드 분석에서 최고 성능과 반복 비용의 간극이 커지고 있다. Malte Ubl은 비공개 Deepsec 평가에서 GPT-5.6 Sol이 최고 재현율·정밀도를 보였지만 실행 비용은 차점 모델의 7배 이상이라고 밝혔다.

#kimi-k3 #cybersecurity #benchmarks

LLM Jul 18, 2026 1 min read

GPT-5.6 Sol, DeepSWE 72.7%와 비용 36.2% 절감으로 AI ROI 논쟁 전면에

OpenAI가 AI 비용 논쟁의 기준을 토큰 가격에서 성공한 작업당 비용으로 옮기려 한다. GPT-5.6 Sol은 DeepSWE v1.1에서 72.7%를 기록했고, Claude Fable 5의 69.9%보다 높으면서 추정 API 비용은 36.2% 낮다고 제시됐다.

#openai #gpt-5.6 #benchmarks

LLM X/Twitter Jul 10, 2026 1 min read

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

OpenAI가 SWE-Bench Pro 공개 과제의 30%가 깨져 frontier coding 역량을 안정적으로 재지 못한다고 밝혔다. 숨은 요구사항, 충돌하는 지시, 과도한 테스트가 정답을 실패로 처리할 수 있다는 지적이다.

#openai #swe-bench #coding-agents

LLM X/Twitter Jul 10, 2026 1 min read

GPT-5.6 Sol, ChatGPT·Codex·API 전면 배포와 80.0 coding agent 지표

OpenAI가 GPT-5.6 Sol·Terra·Luna를 ChatGPT, Codex, API에 풀기 시작했다. 스레드에는 Coding Agent Index 80.0, Claude Fable 5 대비 +2.8점, 비용 약 3분의 1 절감이라는 비교가 함께 제시됐다.

#openai #gpt-5-6 #codex

LLM Jul 3, 2026 1 min read

SkillOpt, 모델 가중치 그대로 agent 점수 23.5점 끌어올린 skill 학습법

agent 성능 개선이 항상 새 모델이나 fine-tuning을 뜻하지는 않는다. Microsoft Research의 SkillOpt는 GPT-5.5 direct chat 6개 benchmark 평균을 58.8에서 82.3으로 올렸고, 52개 평가 셀에서 최고 또는 공동 최고를 기록했다.

#microsoft-research #agents #skillopt

Sciences X/Twitter Jul 1, 2026 1 min read

GeneBench-Pro, 생물학 에이전트 평가를 129개 연구 문제로 끌어올린 새 기준

생물학용 AI 에이전트 평가는 단순 Q&A에서 실제 연구 판단 재현으로 이동하고 있다. OpenAI의 GeneBench-Pro는 129개 계산생물학 문제를 제시하며, GPT-5.6 Sol도 최고 추론 설정에서 28.7%, Pro mode에서 31.5%에 그쳤다.

#openai #genebench-pro #biology

LLM Hacker News Jun 30, 2026 1 min read

Ornith-1.0, agentic coding open model에서 보는 새 경쟁축

벤치마크 숫자보다 HN 댓글이 파고든 지점은 작은 모델을 실제 코딩 루프에 넣었을 때의 속도와 안정성이다.

#ornith #coding-agents #open-models

LLM Jun 30, 2026 1 min read

Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환

무료 리더보드로 알려진 Arena가 상용 서비스 출시 8개월 만에 연환산 매출 $100M에 도달했다. 1,000만 건 넘는 사용자 평가가 모델 랩과 기업의 post-training 예산으로 바뀌는 흐름이다.

#arena #benchmarks #evaluations

LLM X/Twitter Jun 30, 2026 1 min read

OpenRouter, GPQA·TAU-Bench 실시간 점수를 도구 호출 라우팅에 연결

OpenRouter가 오픈웨이트 모델에 GPQA와 TAU-Bench를 지속 실행하고, 그 결과를 AutoExacto 라우팅에 반영한다고 설명했다. GLM 5.2 페이지에서는 1M 토큰 컨텍스트와 $0.94/$3 per 1M 가격 같은 실사용 지표도 함께 노출된다.

#openrouter #benchmarks #routing

LLM X/Twitter Jun 30, 2026 1 min read

GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시

GitHub이 Copilot agentic harness를 SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, Win-Hill에서 비교했다. 같은 모델·같은 과제 조건에서 해결률은 모델 기본 하네스와 비슷했고, 대부분의 구성에서 토큰 사용량은 더 낮았다는 점이 핵심이다.

#github #copilot #agents

LLM X/Twitter Jun 29, 2026 1 min read

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

오픈웨이트 모델 경쟁이 가격 실험을 넘어 실제 에이전트 배치 문제로 이동했다. OpenRouter는 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, Nemotron 3 Ultra 등 4개 모델을 June 2026 핵심 후보로 제시하며 SWE-bench 79.0%, 1M context, 최대 150x 비용 차이를 근거로 들었다.

#openrouter #open-weight #benchmarks