Together AI、Open Deep Research v2を公開 dataset・code・multi-step research workflowをオープン化
Original: Introducing v2 of our Open Deep Research app! Generate detailed reports on any topic with open source LLMs. Fully free & open source. We're releasing everything: evaluation dataset, code, app, and blog 🔥 View original →
March 13, 2026、Together AIはXでOpen Deep Research app v2をfully free & open sourceとして公開したと発表した。今回の更新ではevaluation dataset、code、app、blogをまとめて公開すると説明している。deep researchは、短い回答ではなく、計画、web search、証拠確認、citation付きの長いレポート生成までを一連で行うAI agent workflowとして急速に存在感を高めており、この公開はその文脈で重要だ。
同時公開のOpen Deep Research blog postでは、仕組みが詳しく説明されている。Togetherはplanningとself-reflectionを中核にしたworkflowを提示した。最初に検索クエリを作成し、web結果を集め、knowledge gapが残っていないかを点検し、十分な根拠が集まるまで反復してからレポートを書く構成だ。単発の検索では足りないmulti-hop questionに対応することが狙いだとしている。
v2で公開されたもの
- X announcementで告知されたapp。
- Hugging Face上のevaluation dataset。
- GitHubのopen-source codebase。
- architecture、benchmark、limitationを整理したtechnical blog。
Togetherは、これが単なるsingle-model demoではないことも強調している。blogではplanning、summarization、JSON extraction、final report writingに異なるmodelを割り当てていると説明する。これはquality、latency、costのバランスを取るためのrole-based設計だという。また、evaluation時の繰り返し検索コストを下げるcachingにも触れており、podcast generationを除けば通常2 to 5 minutesで回答が返るとしている。high-quality research agentが依然として通常のchat completionより重い処理であることが分かる。
開発者にとってより重要なのはopennessだ。Togetherは見栄えのするdemoだけでなく、benchmark、fork、extensionに必要な部材まで公開した。これにより、multi-step web research、source ranking、citation付きlong-form report generationを検証できるreference implementationが手に入る。hallucination、search bias、freshnessをlimitationとして明示している点も、このreleaseの信頼性を高めている。
今回の公開は、単なるmodel launchというより、research agent向けのopen baselineを打ち立てる試みと見た方が近い。communityがcodeとdatasetを採用すれば、Open Deep Research v2はplanning loop、retrieval strategy、report qualityを比較する実用的な基準になりそうだ。
Related Articles
MinishLabが公開したSembleは、AIエージェントがコードベースを探索する際のトークン消費量をgrep+read比で98%削減するオープンソースのコード検索ライブラリ。Claude Code・Cursor等のAIコーディング環境にMCPサーバーとして即座に統合でき、Transformerモデルの99%の検索品質をCPUのみで実現する。
AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。
オープンソースPythonフレームワークForgeが、構造化ガードレールを適用することでMinistral-3 8BモデルのエージェントタスクにおけるACCを53%から99%に向上させた。ACM CAIS '26で発表された研究成果だ。