ERNIE 5.1 Preview, 글로벌 13위… 사전학습 비용은 비교 모델의 6%까지 압축
Original: Introducing ERNIE 5.1 Preview — now live! 🚀 Ranked #13 globally and #1 among Chinese labs on @arena 's Text Arena. Top-10 worldwide across:… View original →
순위보다 먼저 봐야 할 숫자
리더보드 자랑은 흔하지만, 순위와 비용 절감이 같이 오면 얘기가 달라진다. ERNIE 5.1 Preview가 바로 그 경우다. Baidu의 개발자용 ERNIE 계정은 4월 29일 X에서 이 모델이 LMArena Text 기준 글로벌 13위, 중국 랩 가운데 1위를 기록했고, 동시에 총 파라미터는 ERNIE 5.0의 약 3분의 1, 활성 파라미터는 약 절반, 사전학습 비용은 비교 가능한 모델의 약 6% 수준으로 눌렀다고 적었다.
"Ranked #13 globally and #1 among Chinese labs on Text Arena."
연결된 ERNIE 블로그는 세부 순위를 더 붙였다. Math 9위, Legal & Government 1위, Business·Management·Financial Ops 4위, Software & IT Services 7위다. Baidu는 이런 결과의 배경으로 decoupled fully-asynchronous reinforcement learning과 scaled agentic post-training을 들었다. 벤더가 직접 쓴 리더보드 글은 늘 한 번 걸러 읽어야 하지만, 순위와 학습비 압축이 같이 제시됐다는 점은 분명한 신호다.
중국 모델 경쟁이 달라지는 지점
중국권 모델 경쟁은 더 이상 절대 파라미터 수나 국내 1위 여부만으로 설명하기 어렵다. 더 적은 비용으로 상위권 성능을 내면 preview를 훨씬 자주 갱신할 수 있고, 이후 API 가격 전략도 공격적으로 가져갈 수 있다. 결국 비용 효율이 iteration 속도와 제품 전략까지 바꾸는 셈이다.
ErnieforDevs 계정은 Baidu 개발자 스택의 출시와 평가 이정표를 꾸준히 올리는 창구다. 그래서 이번 트윗도 preview를 던지고, 공개 리더보드에서 검증하고, 바로 체험 링크로 보내는 전형적인 흐름에 놓여 있다. 다음 관전 포인트는 ERNIE 5.1 Preview가 Arena 바깥의 제3자 벤치마크와 실제 제품에서 어떤 위치를 차지하는지, 그리고 Baidu가 API나 배포 디테일을 얼마나 더 내놓아 이 비용 대비 성능 서사를 입증하는지다. Source: ERNIE source tweet · ERNIE blog post
Related Articles
HN 댓글의 열기는 새 model 이름보다 adaptive thinking, token 변화, safety filter가 실제 개발 흐름을 흔들지에 몰렸다. Opus 4.7은 높은 기대와 동시에 최근 Claude 품질 논쟁의 후폭풍을 맞고 있다.
LocalLLaMA 스레드가 Gemma 4 31B의 예상 밖 FoodTruck Bench 성과를 끌어올렸다. 토론은 곧 장기 계획 능력과 benchmark 신뢰성 문제로 이어졌다.
r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.
Comments (0)
No comments yet. Be the first to comment!