Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ

マルチエージェントは長く研究デモの話題だったが、Sakana AIはここをそのままAPI製品に持ち込んだ。今回の X投稿によると、Sakana Fugu は複数のフロンティアモデルを自動で束ね、コーディング、数学、科学推論を処理する商用β版だ。モデルごとにAPIキーやルーティングを管理する負担を、製品側で吸収する構図になっている。

Sakana AIはXで「Sakana Fugu, a multi-agent orchestration system」のβを始めると書き、SWE-Pro、GPQA-D、ALE-BenchでSOTAに到達したと示した。

公式ブログの数値はかなり踏み込んでいる。fugu-ultra は GPQAD 95.1、LCBv6 93.2、SWEPro 54.2。比較表では Gemini 3.1 high が GPQAD 94.4、GPT 5.4 high が SWEPro 51.2で、SWEPro では Anthropic が公表した Opus 4.6 max の 53.4も上回る。提供形態は OpenAI 互換APIで、低遅延寄りの fugu-mini と、重い推論向けの fugu-ultra の2系統が用意される。

Sakana AIのXアカウントは、研究成果をそのままプロダクト文脈に接続する投稿が多い。今回も同じ流れだ。同社は Evolutionary Model Merge、AI Scientist、AB-MCTS などを通じて、「単一の巨大モデル」ではなく「役割分担した複数モデルの協調」が次の競争軸になると押してきた。Fuguの説明ページでも、その製品化の土台として ICLR 2026採択の Trinity と Conductor を明示している。小さなコーディネータモデルが他のLLMを呼び分け、必要なら自分自身も再帰的に呼び直して推論を深くするという設計は、単なるモデルルーターより一段踏み込んでいる。

次に見るべきは、外部β利用者がこの優位をどこまで再現できるかだ。価格、使うモデルプールの内訳、失敗しやすいタスクが今後どこまで開示されるかも重要になる。もし実務のコーディング支援や研究ワークフローでこの差が維持されるなら、Fuguは複数APIのまとめ役にとどまらない。オーケストレーションそのものを売る時代が本当に立ち上がるのかを測る試金石になる。

Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ

Related Articles

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

モデルは急に鈍くなったのか、LocalLLaMAはsilent downgradeを測定問題にした

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

Comments (0)

Leave a Comment

Related Articles

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

モデルは急に鈍くなったのか、LocalLLaMAはsilent downgradeを測定問題にした
LLM Reddit Apr 17, 2026 1 min read

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった