LLM X/Twitter 5h ago 1 min read DeepSWEの113課題、GPT-5.5を70%・Claude Opus 4.7を54%に分離した新基準 DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。 #deepswe#coding-agents#benchmark 1