LLM 3h ago 1 min read
agent改善は必ずしも新モデルやfine-tuningではない。Microsoft ResearchのSkillOptはGPT-5.5 direct chatの6 benchmark平均を58.8から82.3へ上げ、52評価セルすべてで最高または同率最高だった。
agent改善は必ずしも新モデルやfine-tuningではない。Microsoft ResearchのSkillOptはGPT-5.5 direct chatの6 benchmark平均を58.8から82.3へ上げ、52評価セルすべてで最高または同率最高だった。