Together AI、tool calling・reasoning・VLM fine-tuningを拡張 100B+ modelと最大6倍 throughputを支援
Original: R to @togethercompute: What's new: 👉 Tool call fine-tuning with end-to-end OpenAI-compatible schema validation 👉 Reasoning fine-tuning with native thinking token support 👉 Vision-language model fine-tuning for domain-specific visual data 👉 Up to 6x throughput gains on MoE models with cost and time estimation before and during training View original →
XでTogether AIが打ち出した内容
2026年3月19日、Together AIはXで今回のfine-tuning updateを4つの柱で示した。OpenAI-compatible schema validation付きのtool call fine-tuning、native thinking tokenを扱うreasoning fine-tuning、domain-specific visual data向けのvision-language model fine-tuning、そしてMoE modelで最大6倍のthroughput向上と学習前後のコスト/時間可視化である。
この組み合わせが重要なのは、post-trainingを単なるsupervised fine-tuningではなく、agent systemの運用問題として扱っている点だ。tool use、長いreasoning trace、multimodal inputに依存するようになると、フォーマット不整合やインフラの詰まりといった小さな問題でもproduction挙動全体を壊しやすい。
Together AIブログが加えた詳細
3月18日のブログは実装面をより具体的に説明している。Togetherによれば、このサービスはOpenAI-compatible schemaのtool call dataを直接扱え、学習開始前にすべてのtool_calls entryが宣言済みtoolと一致するか検証する。推論時にもtool-call parsingとvalidationを改善し、fine-tuningの効果がそのままproduction performanceへつながるようにしたという。
reasoning model向けには、assistant message内のreasoningまたはreasoning_content fieldを使ってstructured thinking traceを学習できる。vision-language modelでは、base64 imageのinline入力、image-textとtext-onlyを混在させたhybrid dataset、さらに必要に応じてvision encoderまで更新するtrain_vision=trueをサポートする。
インフラ更新も大きい。Togetherは学習スタックを刷新し、100B+ parameter modelをより効率よく処理し、最大100GB datasetを扱い、全モデルで少なくとも2倍、Kimi K2.5のような大型systemでは6倍超のthroughput向上を実現したとしている。さらに、ジョブ開始前のprice estimateと実行中のETAも追加した。
なぜ重要か
実務的なシグナルは、post-trainingが研究専用の作業から製品的な開発面へ移っていることだ。チームはmodel familyごとに別々のパイプラインを継ぎ足すのではなく、structured tool schema、長いreasoning trace、multimodal exampleを安定して扱える統合fine-tuning環境を求めている。
Togetherの信頼性改善と計画機能が実ワークロードでも維持されるなら、変化の中心は運用にある。domain-specific post-trainingの反復頻度は上がり、コストと完了時間の不確実性は下がり、tool useとmultimodal contextに依存するagent productの改善速度は速くなる。fine-tuningを一回限りのインフラ案件ではなく、通常のapplication engineeringへ近づける更新と言える。
Related Articles
Together AIは2026年3月19日、fine-tuningサービスがtool calling、reasoning、vision-language model学習に対応し、MoEアーキテクチャで最大6倍高いthroughputを実現すると発表した。公式記事では大規模モデル対応、100GBデータセット、事前コスト見積もり、学習中ETAも説明している。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。