Sakana Fugu 베타 개시, SWEPro 54.2·GPQAD 95.1로 멀티에이전트 승부

멀티에이전트는 그동안 논문과 데모의 언어에 가까웠다. Sakana AI는 이 층위를 곧바로 API 상품으로 끌어내렸다. 이번 X 게시물에서 공개한 내용에 따르면 Sakana Fugu는 여러 프론티어 모델을 자동으로 엮어 코딩, 수학, 과학 추론 작업을 처리하는 상용 베타 제품이다. 개발자가 모델별 API 키와 라우팅 규칙을 직접 짜지 않아도 된다는 점을 전면에 세웠다.

Sakana AI는 X에서 “Sakana Fugu, a multi-agent orchestration system”의 베타를 연다고 적고, SWE-Pro·GPQA-D·ALE-Bench에서 새 최고 성능을 냈다고 강조했다.

구체적인 수치는 공식 블로그에 있다. Sakana에 따르면 fugu-ultra는 GPQAD 95.1, LCBv6 93.2, SWEPro 54.2를 기록했다. 같은 표에서 Gemini 3.1 high는 GPQAD 94.4, GPT 5.4 high는 SWEPro 51.2다. SWEPro에서는 Anthropic이 공개한 Opus 4.6 max의 53.4도 넘어섰다고 적었다. 제공 형태도 분명하다. OpenAI 형식 엔드포인트와 호환되고, 지연시간을 우선한 fugu-mini와 더 깊은 추론을 노린 fugu-ultra 두 가지 모드로 나뉜다.

Sakana AI 계정은 원래도 X에서 연구를 제품 언어로 압축해 내보내는 편이다. 이번 글 역시 그 연장선에 있다. 회사는 Evolutionary Model Merge, AI Scientist, AB-MCTS 같은 작업을 통해 “큰 모델 하나”보다 역할이 다른 모델들의 협업이 더 강한 시스템을 만들 수 있다고 밀어왔다. Fugu 소개 페이지도 그 흐름을 숨기지 않는다. 제품의 바탕으로 ICLR 2026 채택 논문 Trinity와 Conductor를 직접 연결한다. 특히 작은 조정 모델이 다른 LLM을 부르고, 필요하면 자기 자신도 다시 호출해 추론 깊이를 늘릴 수 있다는 설명은 단순 모델 라우터와 결이 다르다.

다음 관전 포인트는 외부 베타 사용자들이 이 우위를 재현하느냐이다. 가격, 실제로 묶이는 모델 풀, 어떤 작업에서 실패하는지까지 공개되면 제품의 무게가 더 분명해진다. 만약 실전 코딩 보조와 과학 추론 업무에서도 이 수치가 유지된다면, Fugu는 여러 API를 한데 묶어주는 편의 기능을 넘어서게 된다. 오케스트레이션 자체를 하나의 모델 제품으로 팔 수 있는지 가늠하는 시험대가 될 가능성이 크다.

Sakana Fugu 베타 개시, SWEPro 54.2·GPQAD 95.1로 멀티에이전트 승부

Related Articles

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다

IBM VAKRA, tool agent가 무너지는 지점을 실행 환경으로 측정한다

Claude Opus 4.7, HN은 benchmark보다 adaptive thinking과 신뢰 회복을 먼저 봤다

Comments (0)

Leave a Comment

Related Articles

모델들이 갑자기 둔해졌나? LocalLLaMA는 'silent downgrade' 감각을 검증 문제로 바꿨다
LLM Reddit Apr 17, 2026 1 min read

IBM VAKRA, tool agent가 무너지는 지점을 실행 환경으로 측정한다
LLM Apr 17, 2026 1 min read

Claude Opus 4.7, HN은 benchmark보다 adaptive thinking과 신뢰 회복을 먼저 봤다
LLM Hacker News Apr 17, 2026 1 min read