부식 중

Together AI, Open Deep Research v2 공개… dataset·code·multi-step research workflow 오픈소스화

Original: Introducing v2 of our Open Deep Research app! Generate detailed reports on any topic with open source LLMs. Fully free & open source. We're releasing everything: evaluation dataset, code, app, and blog 🔥 View original →

Read in other languages: English日本語
LLM Mar 14, 2026 By Insights AI 1 min read 8 views Source

March 13, 2026에 Together AI는 X를 통해 Open Deep Research app v2를 fully free & open source로 공개했다고 밝혔다. 회사는 이번 업데이트와 함께 evaluation dataset, code, app, blog를 모두 공개한다고 설명했다. 이는 deep research가 최근 AI agent workflow에서 가장 주목받는 형식 가운데 하나이기 때문이다. 단순한 짧은 답변 대신, 시스템이 과제를 계획하고 웹을 검색하며 근거를 점검한 뒤 citation이 포함된 더 긴 보고서를 만든다는 점이 핵심이다.

함께 공개된 Open Deep Research blog post는 구조를 더 자세히 설명한다. Together는 planning과 self-reflection을 중심으로 한 workflow를 소개했다. 시스템은 먼저 검색 질의를 만들고, 웹 결과를 수집한 뒤, knowledge gap이 남아 있는지 점검하고, 보고서를 쓸 만큼 충분한 근거가 모일 때까지 반복한다. 회사는 이를 단일 검색으로는 답하기 어려운 multi-hop question에 대응하기 위한 구조로 설명한다.

v2에서 함께 공개된 것

  • X announcement에서 공개한 앱.
  • Hugging Face의 evaluation dataset.
  • GitHub의 open-source codebase.
  • 아키텍처, benchmark, limitation을 설명하는 기술 블로그.

Together는 이것이 단일 모델 데모가 아니라는 점도 분명히 했다. blog에 따르면 planning, summarization, JSON extraction, final report writing에 서로 다른 모델을 배치한다. 회사는 이 role-based 설계가 quality, latency, cost의 균형을 맞추기 위한 것이라고 설명한다. 또한 evaluation 과정에서 반복 검색 비용을 줄이기 위한 caching을 언급했고, podcast generation을 제외하면 일반적으로 2 to 5 minutes 안에 응답이 생성된다고 밝혔다. 이는 high-quality research agent가 여전히 일반 chat completion보다 느리다는 점을 보여준다.

개발자 관점에서 더 중요한 신호는 openness다. Together는 보기 좋은 데모만 공개한 것이 아니라 benchmark, fork, extension에 필요한 구성요소까지 함께 내놓았다. 덕분에 multi-step web research, source ranking, citation 기반 long-form report generation을 검증할 수 있는 reference implementation이 생겼다. 회사가 hallucination, search bias, freshness 문제를 limitation으로 명시한 점도 이 release의 신뢰도를 높인다.

결국 이번 공개는 단순한 model launch라기보다 research agent를 위한 open baseline을 세우려는 시도로 보인다. 커뮤니티가 code와 dataset를 실제로 채택한다면, Open Deep Research v2는 planning loop, retrieval strategy, report quality를 비교하는 실용적인 기준점이 될 수 있다.

Share: Long

Related Articles

LLM X/Twitter 4d ago 1 min read

이 소식이 중요한 이유는 에이전트 코딩의 병목이 모델 속도보다 사람의 컨텍스트 전환에 있다는 점을 정면으로 건드렸기 때문이다. OpenAI는 Symphony 방식이 일부 팀에서 머지된 PR 수를 500% 끌어올렸고, 엔지니어가 동시에 안정적으로 다룰 수 있는 Codex 세션은 대체로 3~5개 수준이었다고 적었다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment