LLM 3h ago 1 min read
agent 성능 개선이 항상 새 모델이나 fine-tuning을 뜻하지는 않는다. Microsoft Research의 SkillOpt는 GPT-5.5 direct chat 6개 benchmark 평균을 58.8에서 82.3으로 올렸고, 52개 평가 셀에서 최고 또는 공동 최고를 기록했다.
agent 성능 개선이 항상 새 모델이나 fine-tuning을 뜻하지는 않는다. Microsoft Research의 SkillOpt는 GPT-5.5 direct chat 6개 benchmark 평균을 58.8에서 82.3으로 올렸고, 52개 평가 셀에서 최고 또는 공동 최고를 기록했다.