LLM X/Twitter 5h ago 1 min read DeepSWE 113개 과제, 코딩 에이전트 격차를 70% 대 54%로 벌린 새 평가 벤치마크 오염 없는 113개 장기 코딩 과제가 공개 벤치마크의 촘촘한 순위를 흔들었다. DeepSWE에서는 GPT-5.5가 70.0%, Claude Opus 4.7이 54.2%를 기록했다. #deepswe#coding-agents#benchmark 1