Cursor가 Composer 2 technical report를 공개하며 code-dominated continued pretraining, 대규모 reinforcement learning, 그리고 CursorBench 중심 평가 체계를 설명했다. 보고서는 agentic software engineering 모델의 학습 환경과 benchmark 수치를 비교적 자세히 공개한 사례다.
Cursor가 Composer 2 technical report를 공개하며 code-dominated continued pretraining, 대규모 reinforcement learning, 그리고 CursorBench 중심 평가 체계를 설명했다. 보고서는 agentic software engineering 모델의 학습 환경과 benchmark 수치를 비교적 자세히 공개한 사례다.
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
r/LocalLLaMA의 llama.cpp 비교 글은 55 upvotes와 81 comments를 기록했다. RTX 5090, DGX Spark, AMD AI395, single과 dual R9700를 같은 parameter로 비교해 local inference hardware의 현실적인 trade-off를 보여줬다.
ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.
NVIDIA는 2026년 3월 25일 Nemotron Nano 12B v2 VL이 온프레미스 video understanding을 지원하며, 자사 설명 기준으로 MediaPerf benchmark에서 30B급 대안에 가까운 성능을 더 작은 footprint로 낸다고 밝혔다. NVIDIA 모델 카드는 이를 multi-image reasoning, video understanding, visual Q&A, summarization을 위한 상용 가능 멀티모달 모델로 소개한다.
r/LocalLLaMA의 Mi50 벤치마크 글은 llama.cpp에서 ROCm 7 nightly와 Vulkan을 비교하며, 짧은 문맥에서는 Vulkan이 강하지만 긴 문맥과 MoE에서는 ROCm이 앞선다는 관찰을 제시했다.
Show HN로 소개된 llm-circuit-finder는 GGUF 안의 특정 layer block을 한 번 더 통과시키는 방식으로 reasoning을 높일 수 있다고 주장한다. repo는 training이나 weight 변경 없이도 logical deduction 개선이 가능하다고 설명하지만, 핵심 수치는 모두 repo author의 자체 측정이다.
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.
Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.