ERNIE 5.1 Preview、世界13位で事前学習コストは比較対象の6%まで圧縮した実力検証軸

順位より先に見るべき数字

リーダーボードの自慢は珍しくないが、順位とコスト圧縮が同時に出てくるなら話は変わる。ERNIE 5.1 Previewはそこがポイントだ。Baiduの開発者向けERNIEアカウントは4月29日のX投稿で、このモデルがLMArena Textで世界13位、中国ラボでは1位に入ったとし、同時に総パラメータをERNIE 5.0の約3分の1、アクティブパラメータを約2分の1に抑え、事前学習コストを比較対象モデルの約6%まで圧縮したと書いた。

"Ranked #13 globally and #1 among Chinese labs on Text Arena."

リンク先のERNIEブログにはカテゴリ別の順位もある。Mathが世界9位、Legal & Governmentが1位、Business, Management & Financial Opsが4位、Software & IT Servicesが7位だ。Baiduは背景として、decoupled fully-asynchronous reinforcement learningとscaled agentic post-trainingを挙げている。企業自身が書くランキング記事は慎重に読む必要があるが、順位と学習費の圧縮が一緒に出た点は見逃しにくい。

1回のArena更新で終わらない理由

中国モデル競争は、もはや絶対的な規模や国内1位だけでは測れない。より低いコストで上位圏へ入れるなら、プレビュー更新の頻度も、後のAPI価格戦略も変わるからだ。上位の成績をより軽い学習費で出せること自体が、次の反復速度を押し上げる。

ErnieforDevsのアカウントは、Baiduの開発者向けスタックのリリースや評価の節目を伝える窓口として動いている。今回の投稿も、previewを出し、公開ランキングで位置を示し、そのまま開発者を試用へ送る流れにある。次に見るべきは、ERNIE 5.1 PreviewがArena以外の第三者ベンチや実運用でどこまで存在感を持つか、そしてBaiduがAPIや導入面の詳細をどこまで開示して、このコスト対性能の物語を実務で証明できるかだ。 Source: ERNIE source tweet · ERNIE blog post

ERNIE 5.1 Preview、世界13位で事前学習コストは比較対象の6%まで圧縮した実力検証軸

順位より先に見るべき数字

1回のArena更新で終わらない理由

Related Articles

LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

Claude Opus 4.7、HNはbenchmarkよりadaptive thinkingと信頼回復を見た

Browser HarnessにHN反応、足りないブラウザ操作を途中で自分で書くLLM

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出
LLM Reddit Apr 5, 2026 1 min read

Claude Opus 4.7、HNはbenchmarkよりadaptive thinkingと信頼回復を見た
LLM Hacker News Apr 17, 2026 1 min read

Browser HarnessにHN反応、足りないブラウザ操作を途中で自分で書くLLM