Sakana Fugu β始動、GPQAD 95.1とSWE-Pro 54.2で商用APIテストへ
Original: We’re launching the beta for our new commercial AI product: Sakana Fugu, a multi-agent orchestration system! View original →
マルチエージェントは長く研究デモの話題だったが、Sakana AIはここをそのままAPI製品に持ち込んだ。今回の X投稿 によると、Sakana Fugu は複数のフロンティアモデルを自動で束ね、コーディング、数学、科学推論を処理する商用β版だ。モデルごとにAPIキーやルーティングを管理する負担を、製品側で吸収する構図になっている。
Sakana AIはXで「Sakana Fugu, a multi-agent orchestration system」のβを始めると書き、SWE-Pro、GPQA-D、ALE-BenchでSOTAに到達したと示した。
公式ブログ の数値はかなり踏み込んでいる。fugu-ultra は GPQAD 95.1、LCBv6 93.2、SWEPro 54.2。比較表では Gemini 3.1 high が GPQAD 94.4、GPT 5.4 high が SWEPro 51.2で、SWEPro では Anthropic が公表した Opus 4.6 max の 53.4も上回る。提供形態は OpenAI 互換APIで、低遅延寄りの fugu-mini と、重い推論向けの fugu-ultra の2系統が用意される。
Sakana AIのXアカウントは、研究成果をそのままプロダクト文脈に接続する投稿が多い。今回も同じ流れだ。同社は Evolutionary Model Merge、AI Scientist、AB-MCTS などを通じて、「単一の巨大モデル」ではなく「役割分担した複数モデルの協調」が次の競争軸になると押してきた。Fuguの説明ページでも、その製品化の土台として ICLR 2026採択の Trinity と Conductor を明示している。小さなコーディネータモデルが他のLLMを呼び分け、必要なら自分自身も再帰的に呼び直して推論を深くするという設計は、単なるモデルルーターより一段踏み込んでいる。
次に見るべきは、外部β利用者がこの優位をどこまで再現できるかだ。価格、使うモデルプールの内訳、失敗しやすいタスクが今後どこまで開示されるかも重要になる。もし実務のコーディング支援や研究ワークフローでこの差が維持されるなら、Fuguは複数APIのまとめ役にとどまらない。オーケストレーションそのものを売る時代が本当に立ち上がるのかを測る試金石になる。
Related Articles
OpenAIは2025-08-07にGPT-5を公開し、ChatGPTとAPIの同時展開を発表した。GPT-4o比でhallucinationを45%低減、HealthBench Hard 44.6などの指標を示し、実運用移行の判断材料を強化した。
OpenAIは2026年5月7日、APIを通じてリアルタイム音声AIモデル3種を公開した。GPT-5クラスの推論を備えたGPT-Realtime-2、70言語以上のリアルタイム翻訳モデル、ストリーミング文字起こしモデルが含まれる。
xAIが狙うのは会話デモではなく実務向け音声エージェントだ。Grok Voice Think Fast 1.0はτ-voice Bench首位を掲げ、25言語超に対応し、Starlink運用では販売転換率20%、サポート解決率70%を出したとしている。