Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ

マルチエージェントは長く研究デモの話題だったが、Sakana AIはここをそのままAPI製品に持ち込んだ。今回の X投稿によると、Sakana Fugu は複数のフロンティアモデルを自動で束ね、コーディング、数学、科学推論を処理する商用β版だ。モデルごとにAPIキーやルーティングを管理する負担を、製品側で吸収する構図になっている。

Sakana AIはXで「Sakana Fugu, a multi-agent orchestration system」のβを始めると書き、SWE-Pro、GPQA-D、ALE-BenchでSOTAに到達したと示した。

公式ブログの数値はかなり踏み込んでいる。fugu-ultra は GPQAD 95.1、LCBv6 93.2、SWEPro 54.2。比較表では Gemini 3.1 high が GPQAD 94.4、GPT 5.4 high が SWEPro 51.2で、SWEPro では Anthropic が公表した Opus 4.6 max の 53.4も上回る。提供形態は OpenAI 互換APIで、低遅延寄りの fugu-mini と、重い推論向けの fugu-ultra の2系統が用意される。

Sakana AIのXアカウントは、研究成果をそのままプロダクト文脈に接続する投稿が多い。今回も同じ流れだ。同社は Evolutionary Model Merge、AI Scientist、AB-MCTS などを通じて、「単一の巨大モデル」ではなく「役割分担した複数モデルの協調」が次の競争軸になると押してきた。Fuguの説明ページでも、その製品化の土台として ICLR 2026採択の Trinity と Conductor を明示している。小さなコーディネータモデルが他のLLMを呼び分け、必要なら自分自身も再帰的に呼び直して推論を深くするという設計は、単なるモデルルーターより一段踏み込んでいる。

次に見るべきは、外部β利用者がこの優位をどこまで再現できるかだ。価格、使うモデルプールの内訳、失敗しやすいタスクが今後どこまで開示されるかも重要になる。もし実務のコーディング支援や研究ワークフローでこの差が維持されるなら、Fuguは複数APIのまとめ役にとどまらない。オーケストレーションそのものを売る時代が本当に立ち上がるのかを測る試金石になる。

Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ

Related Articles

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い

Kimi K3、非公開サイバー評価でGPT-5.6に対する費用優位を示す

OpenAIがGPT-5を発表、推論・コーディング・信頼性指標を同時提示

Related Articles

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い
高性能モデルの競争軸が、最高点だけでなく費用対効果へ移っている。Claude Opus 5はFable 5に近いcoding・知識作業性能を掲げ、API価格は入力$5/M・出力$25/M tokensに据え置かれた。

Kimi K3、非公開サイバー評価でGPT-5.6に対する費用優位を示す
LLM X/Twitter Jul 19, 2026 1 min read

OpenAIがGPT-5を発表、推論・コーディング・信頼性指標を同時提示
LLM Feb 19, 2026 1 min read