Sakana Fugu 베타 개시, SWEPro 54.2·GPQAD 95.1로 멀티에이전트 승부

Original: We’re launching the beta for our new commercial AI product: Sakana Fugu, a multi-agent orchestration system! View original →

Read in other languages: English日本語
LLM Apr 24, 2026 By Insights AI 1 min read Source

멀티에이전트는 그동안 논문과 데모의 언어에 가까웠다. Sakana AI는 이 층위를 곧바로 API 상품으로 끌어내렸다. 이번 X 게시물에서 공개한 내용에 따르면 Sakana Fugu는 여러 프론티어 모델을 자동으로 엮어 코딩, 수학, 과학 추론 작업을 처리하는 상용 베타 제품이다. 개발자가 모델별 API 키와 라우팅 규칙을 직접 짜지 않아도 된다는 점을 전면에 세웠다.

Sakana AI는 X에서 “Sakana Fugu, a multi-agent orchestration system”의 베타를 연다고 적고, SWE-Pro·GPQA-D·ALE-Bench에서 새 최고 성능을 냈다고 강조했다.

구체적인 수치는 공식 블로그에 있다. Sakana에 따르면 fugu-ultra는 GPQAD 95.1, LCBv6 93.2, SWEPro 54.2를 기록했다. 같은 표에서 Gemini 3.1 high는 GPQAD 94.4, GPT 5.4 high는 SWEPro 51.2다. SWEPro에서는 Anthropic이 공개한 Opus 4.6 max의 53.4도 넘어섰다고 적었다. 제공 형태도 분명하다. OpenAI 형식 엔드포인트와 호환되고, 지연시간을 우선한 fugu-mini와 더 깊은 추론을 노린 fugu-ultra 두 가지 모드로 나뉜다.

Sakana AI 계정은 원래도 X에서 연구를 제품 언어로 압축해 내보내는 편이다. 이번 글 역시 그 연장선에 있다. 회사는 Evolutionary Model Merge, AI Scientist, AB-MCTS 같은 작업을 통해 “큰 모델 하나”보다 역할이 다른 모델들의 협업이 더 강한 시스템을 만들 수 있다고 밀어왔다. Fugu 소개 페이지도 그 흐름을 숨기지 않는다. 제품의 바탕으로 ICLR 2026 채택 논문 TrinityConductor를 직접 연결한다. 특히 작은 조정 모델이 다른 LLM을 부르고, 필요하면 자기 자신도 다시 호출해 추론 깊이를 늘릴 수 있다는 설명은 단순 모델 라우터와 결이 다르다.

다음 관전 포인트는 외부 베타 사용자들이 이 우위를 재현하느냐이다. 가격, 실제로 묶이는 모델 풀, 어떤 작업에서 실패하는지까지 공개되면 제품의 무게가 더 분명해진다. 만약 실전 코딩 보조와 과학 추론 업무에서도 이 수치가 유지된다면, Fugu는 여러 API를 한데 묶어주는 편의 기능을 넘어서게 된다. 오케스트레이션 자체를 하나의 모델 제품으로 팔 수 있는지 가늠하는 시험대가 될 가능성이 크다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.