ERNIE 5.1 Preview、世界13位で事前学習コストは比較対象の6%まで圧縮した実力検証軸
Original: Introducing ERNIE 5.1 Preview — now live! 🚀 Ranked #13 globally and #1 among Chinese labs on @arena 's Text Arena. Top-10 worldwide across:… View original →
順位より先に見るべき数字
リーダーボードの自慢は珍しくないが、順位とコスト圧縮が同時に出てくるなら話は変わる。ERNIE 5.1 Previewはそこがポイントだ。Baiduの開発者向けERNIEアカウントは4月29日のX投稿で、このモデルがLMArena Textで世界13位、中国ラボでは1位に入ったとし、同時に総パラメータをERNIE 5.0の約3分の1、アクティブパラメータを約2分の1に抑え、事前学習コストを比較対象モデルの約6%まで圧縮したと書いた。
"Ranked #13 globally and #1 among Chinese labs on Text Arena."
リンク先のERNIEブログにはカテゴリ別の順位もある。Mathが世界9位、Legal & Governmentが1位、Business, Management & Financial Opsが4位、Software & IT Servicesが7位だ。Baiduは背景として、decoupled fully-asynchronous reinforcement learningとscaled agentic post-trainingを挙げている。企業自身が書くランキング記事は慎重に読む必要があるが、順位と学習費の圧縮が一緒に出た点は見逃しにくい。
1回のArena更新で終わらない理由
中国モデル競争は、もはや絶対的な規模や国内1位だけでは測れない。より低いコストで上位圏へ入れるなら、プレビュー更新の頻度も、後のAPI価格戦略も変わるからだ。上位の成績をより軽い学習費で出せること自体が、次の反復速度を押し上げる。
ErnieforDevsのアカウントは、Baiduの開発者向けスタックのリリースや評価の節目を伝える窓口として動いている。今回の投稿も、previewを出し、公開ランキングで位置を示し、そのまま開発者を試用へ送る流れにある。次に見るべきは、ERNIE 5.1 PreviewがArena以外の第三者ベンチや実運用でどこまで存在感を持つか、そしてBaiduがAPIや導入面の詳細をどこまで開示して、このコスト対性能の物語を実務で証明できるかだ。 Source: ERNIE source tweet · ERNIE blog post
Related Articles
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。
HNの熱量は新model名より、adaptive thinking、tokenizer変更、safety filterが実務のagent workflowをどう揺らすかに向かった。Opus 4.7は期待と同時に、最近のClaude品質不信も背負って見られている。
HNがこのリポジトリに反応したのは、また一つブラウザ自動化ラッパーが出たからではない。作業の途中でモデル自身が不足した helper を書き足しながら進む、という発想が刺さった。
Comments (0)
No comments yet. Be the first to comment!