Ornith-1.0, agentic coding open model에서 보는 새 경쟁축

Ornith-1.0은 “self-improving open-source models for agentic coding”을 내세운 새 모델 묶음이다. 공개 README는 9B dense, 35B MoE, 397B MoE 체크포인트를 제시하고, Gemma 4와 Qwen 3.5 계열 위에 post-training을 했다고 설명한다. MIT license와 지역 제한 없는 접근도 전면에 놓았다.

수치상으로는 agentic coding benchmark가 중심이다. README는 Terminal-Bench 2.1, SWE-bench Verified, SWE-bench Pro, NL2Repo, ClawEval 등을 같은 harness 조건으로 비교했다고 적었다. 특히 35B와 397B MoE가 coding agent 환경에서 강한 결과를 냈다는 표가 HN의 관심을 끌었다. 다만 커뮤니티는 benchmark 이름보다 실제 사용감 쪽을 더 캐물었다.

댓글에서 눈에 띈 논점은 “Qwen fine-tune인가”보다 “로컬 작업 루프에서 쓸 만한가”였다. 일부 사용자는 35B 모델을 vLLM이나 llama.cpp 환경에서 돌려 보니 Qwen 3.6 35B 계열보다 빠르고, thinking trace가 덜 길게 늘어진다고 평가했다. 반대로 출처, self-improving의 정확한 의미, 공개되지 않은 모델 언급처럼 검증이 필요한 부분도 함께 지적됐다.

이 반응은 open coding model 시장의 기준이 바뀌고 있음을 보여준다. 단순히 SWE-bench 점수를 올리는 것만으로는 부족하다. 설치 가능한 체크포인트, 긴 context, tool-call parser, reasoning parser, 로컬 inference 속도, 과도한 reasoning loop를 줄이는 성향까지 한 묶음으로 평가된다. Ornith-1.0이 흥미로운 이유도 여기에 있다.

Source: Ornith-1.0 README, HN discussion.

LLM Jun 18, 2026 1 min read

GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축

1M 토큰 context가 숫자 자랑을 넘어 장시간 코딩 작업의 성능 변수로 올라왔다. Z.AI는 GLM-5.2가 FrontierSWE에서 Claude Opus 4.8을 1% 차이로 추격하고, Terminal-Bench 2.1에서 81.0점을 기록했다고 제시했다.

#zai #glm-5.2 #coding-agents

LLM X/Twitter 4d ago 1 min read

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.

#openrouter #benchmarks #glm-5.2

LLM Reddit 6d ago 1 min read

OCR 모델 경쟁, 이제 benchmark보다 ingestion 품질 싸움

r/MachineLearning의 관심은 새 OCR 모델 이름보다 비교 가능한 기준에 모였다. Baidu Unlimited-OCR와 Mistral OCR 4가 같은 주에 나오면서 문서 ingestion 성능을 한곳에서 보려는 수요가 커졌다.

#ocr #document-ai #rag

Related Articles

GLM-5.2, 1M context와 코딩 벤치마크로 열린 모델 격차 압축

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

OCR 모델 경쟁, 이제 benchmark보다 ingestion 품질 싸움