#benchmark

AI Hacker News 4d ago 1 min read

Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.

LLM Reddit Mar 1, 2026 1 min read

r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.

© 2026 Insights. All rights reserved.