#ci - Insights

AI Hacker News Mar 8, 2026 1 min read

Hacker News가 주목한 SWE-CI, 장기 코드 유지보수형 coding agent benchmark

Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.

#coding-agents #benchmark #software-engineering