Together AI, tool calling·reasoning·VLM fine-tuning 확대… 100B+ 모델·최대 6배 처리량 지원

Original: R to @togethercompute: What's new: 👉 Tool call fine-tuning with end-to-end OpenAI-compatible schema validation 👉 Reasoning fine-tuning with native thinking token support 👉 Vision-language model fine-tuning for domain-specific visual data 👉 Up to 6x throughput gains on MoE models with cost and time estimation before and during training View original →

Read in other languages: English日本語
LLM Mar 23, 2026 By Insights AI 2 min read Source

X에서 Together AI가 강조한 내용

2026년 3월 19일, Together AI는 X에서 하나의 fine-tuning 업데이트를 네 가지 축으로 정리했다. OpenAI-compatible schema validation을 포함한 tool call fine-tuning, native thinking token 지원이 들어간 reasoning fine-tuning, domain-specific visual data를 위한 vision-language model fine-tuning, 그리고 MoE 모델 기준 최대 6배 처리량 향상과 학습 전·중 비용/시간 가시화다.

이 조합이 중요한 이유는 post-training을 단순 supervised fine-tuning이 아니라 agent 시스템 문제로 다루기 때문이다. 팀이 tool use, 긴 reasoning trace, multimodal input에 의존하기 시작하면, 포맷 오류나 인프라 병목 같은 작은 문제도 production 동작 전체를 흔들 수 있다.

Together AI 블로그가 추가한 세부 사항

3월 18일 공개된 블로그는 구현 수준의 내용을 더 구체적으로 설명한다. Together는 fine-tuning 서비스가 이제 OpenAI-compatible schema 기반 tool call 데이터를 직접 지원하고, 학습 시작 전에 모든 tool_calls 항목이 선언된 tool과 일치하는지 검증한다고 밝혔다. 추론 단계에서도 tool-call parsing과 validation을 강화해 fine-tuning 효과가 실제 운영 성능으로 이어지도록 했다고 설명한다.

reasoning 모델의 경우 assistant message 안의 reasoning 또는 reasoning_content 필드를 활용해 structured thinking trace 자체를 학습할 수 있다고 한다. vision-language model에서는 base64 image를 inline으로 넣는 방식, image-text와 text-only를 함께 쓰는 hybrid dataset, 그리고 필요 시 vision encoder까지 함께 갱신하는 train_vision=true 옵션을 지원한다.

인프라 업데이트도 크다. Together는 학습 스택을 개선해 100B+ parameter 모델을 더 효율적으로 다룰 수 있게 했고, 최대 100GB 데이터셋을 지원하며, 전 모델군에서 최소 2배, Kimi K2.5 같은 대형 시스템에서는 6배 이상 처리량을 높였다고 밝혔다. 여기에 학습 시작 전 price estimate와 실행 중 ETA도 추가했다.

왜 중요한가

핵심 신호는 post-training이 연구 전용 작업이 아니라 제품화된 개발 표면으로 이동하고 있다는 점이다. 이제 팀은 model family마다 별도 파이프라인을 짜기보다, structured tool schema, 긴 reasoning trace, multimodal example을 안정적으로 처리하는 통합 fine-tuning 환경을 원한다.

Together의 신뢰성 개선과 계획 기능이 실제 workload에서도 유지된다면, 변화의 본질은 운영 방식에 있다. domain-specific post-training 빈도는 더 올라가고, 비용과 완료 시간의 불확실성은 줄어들며, tool use와 multimodal context에 의존하는 agent 제품의 반복 속도는 빨라진다. 이는 fine-tuning을 일회성 인프라 프로젝트보다 일반적인 application engineering에 더 가깝게 만든다.

출처: Together AI X 게시물 · Together AI 블로그

Share: Long

Related Articles

LLM sources.twitter 1d ago 1 min read

Together AI는 2026년 3월 19일 fine-tuning 서비스가 tool calling, reasoning, vision-language model 학습을 지원하고 MoE 아키텍처에서 최대 6배 높은 처리량을 낸다고 밝혔다. 공식 글은 최대 1T 파라미터급 모델 지원 방향과 함께 100GB 데이터셋, 사전 비용 추정, 학습 중 ETA 제공을 설명한다.

LLM Reddit 5d ago 2 min read

r/LocalLLaMA에서 높은 반응을 얻은 글은 Unsloth Studio를 train, run, export를 한 번에 다루는 beta 오픈소스 web UI로 소개했다. Reddit에서는 GGUF 생태계의 LM Studio 경쟁자 가능성이 거론됐지만, 상위 댓글에서는 고급 사용자가 여전히 vLLM이나 직접 llama.cpp를 선호한다는 반론도 나왔다.

LLM Hacker News 1d ago 2 min read

Hacker News에서 화제가 된 llm-circuit-finder는 training 없이 layer routing만으로 reasoning score를 끌어올릴 수 있다고 주장한다. 하지만 README의 전체 benchmark는 IFEval/MBPP와 평균 점수 하락도 보여 주며, 이 접근은 universal improvement보다 capability steering으로 보는 편이 더 타당하다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.