Together AI, Open Deep Research v2 공개… dataset·code·multi-step research workflow 오픈소스화
Original: Introducing v2 of our Open Deep Research app! Generate detailed reports on any topic with open source LLMs. Fully free & open source. We're releasing everything: evaluation dataset, code, app, and blog 🔥 View original →
March 13, 2026에 Together AI는 X를 통해 Open Deep Research app v2를 fully free & open source로 공개했다고 밝혔다. 회사는 이번 업데이트와 함께 evaluation dataset, code, app, blog를 모두 공개한다고 설명했다. 이는 deep research가 최근 AI agent workflow에서 가장 주목받는 형식 가운데 하나이기 때문이다. 단순한 짧은 답변 대신, 시스템이 과제를 계획하고 웹을 검색하며 근거를 점검한 뒤 citation이 포함된 더 긴 보고서를 만든다는 점이 핵심이다.
함께 공개된 Open Deep Research blog post는 구조를 더 자세히 설명한다. Together는 planning과 self-reflection을 중심으로 한 workflow를 소개했다. 시스템은 먼저 검색 질의를 만들고, 웹 결과를 수집한 뒤, knowledge gap이 남아 있는지 점검하고, 보고서를 쓸 만큼 충분한 근거가 모일 때까지 반복한다. 회사는 이를 단일 검색으로는 답하기 어려운 multi-hop question에 대응하기 위한 구조로 설명한다.
v2에서 함께 공개된 것
- X announcement에서 공개한 앱.
- Hugging Face의 evaluation dataset.
- GitHub의 open-source codebase.
- 아키텍처, benchmark, limitation을 설명하는 기술 블로그.
Together는 이것이 단일 모델 데모가 아니라는 점도 분명히 했다. blog에 따르면 planning, summarization, JSON extraction, final report writing에 서로 다른 모델을 배치한다. 회사는 이 role-based 설계가 quality, latency, cost의 균형을 맞추기 위한 것이라고 설명한다. 또한 evaluation 과정에서 반복 검색 비용을 줄이기 위한 caching을 언급했고, podcast generation을 제외하면 일반적으로 2 to 5 minutes 안에 응답이 생성된다고 밝혔다. 이는 high-quality research agent가 여전히 일반 chat completion보다 느리다는 점을 보여준다.
개발자 관점에서 더 중요한 신호는 openness다. Together는 보기 좋은 데모만 공개한 것이 아니라 benchmark, fork, extension에 필요한 구성요소까지 함께 내놓았다. 덕분에 multi-step web research, source ranking, citation 기반 long-form report generation을 검증할 수 있는 reference implementation이 생겼다. 회사가 hallucination, search bias, freshness 문제를 limitation으로 명시한 점도 이 release의 신뢰도를 높인다.
결국 이번 공개는 단순한 model launch라기보다 research agent를 위한 open baseline을 세우려는 시도로 보인다. 커뮤니티가 code와 dataset를 실제로 채택한다면, Open Deep Research v2는 planning loop, retrieval strategy, report quality를 비교하는 실용적인 기준점이 될 수 있다.
Related Articles
ACM CAIS '26에 발표된 오픈소스 Python 프레임워크 Forge가 Ministral-3 8B 모델에 가드레일을 적용해 에이전트 작업 정확도를 53%에서 99%로 향상시켰다.
LocalLLaMA의 관심은 “Claude 대체”보다 tool call 오류율 12%라는 구체적 한계에 모였다.
Alibaba Qwen 팀이 에이전트 중심 설계의 신모델 Qwen3.7-Max를 공개했다. Artificial Analysis 평가에서 GPT 5.4와 동급인 5위를 기록하며 오픈 웨이트 프론티어 모델의 새 기준을 제시했다.