Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ
Original: We’re launching the beta for our new commercial AI product: Sakana Fugu, a multi-agent orchestration system! View original →
マルチエージェントは長く研究デモの話題だったが、Sakana AIはここをそのままAPI製品に持ち込んだ。今回の X投稿 によると、Sakana Fugu は複数のフロンティアモデルを自動で束ね、コーディング、数学、科学推論を処理する商用β版だ。モデルごとにAPIキーやルーティングを管理する負担を、製品側で吸収する構図になっている。
Sakana AIはXで「Sakana Fugu, a multi-agent orchestration system」のβを始めると書き、SWE-Pro、GPQA-D、ALE-BenchでSOTAに到達したと示した。
公式ブログ の数値はかなり踏み込んでいる。fugu-ultra は GPQAD 95.1、LCBv6 93.2、SWEPro 54.2。比較表では Gemini 3.1 high が GPQAD 94.4、GPT 5.4 high が SWEPro 51.2で、SWEPro では Anthropic が公表した Opus 4.6 max の 53.4も上回る。提供形態は OpenAI 互換APIで、低遅延寄りの fugu-mini と、重い推論向けの fugu-ultra の2系統が用意される。
Sakana AIのXアカウントは、研究成果をそのままプロダクト文脈に接続する投稿が多い。今回も同じ流れだ。同社は Evolutionary Model Merge、AI Scientist、AB-MCTS などを通じて、「単一の巨大モデル」ではなく「役割分担した複数モデルの協調」が次の競争軸になると押してきた。Fuguの説明ページでも、その製品化の土台として ICLR 2026採択の Trinity と Conductor を明示している。小さなコーディネータモデルが他のLLMを呼び分け、必要なら自分自身も再帰的に呼び直して推論を深くするという設計は、単なるモデルルーターより一段踏み込んでいる。
次に見るべきは、外部β利用者がこの優位をどこまで再現できるかだ。価格、使うモデルプールの内訳、失敗しやすいタスクが今後どこまで開示されるかも重要になる。もし実務のコーディング支援や研究ワークフローでこの差が維持されるなら、Fuguは複数APIのまとめ役にとどまらない。オーケストレーションそのものを売る時代が本当に立ち上がるのかを測る試金石になる。
Related Articles
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
LocalLLaMAの熱量は「modelが弱くなった」という不満だけでは終わらなかった。provider routing、quantization、peak-time behavior、silent downgradeをどう証明するかへ議論が広がった。証拠は未確定だが、不安ははっきり見える。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Comments (0)
No comments yet. Be the first to comment!