#benchmark

LLM sources.twitter Mar 30, 2026 1 min read

Cursor, Composer 2 technical report 공개하며 coding agent 학습 경로와 benchmark 수치 설명

Cursor가 Composer 2 technical report를 공개하며 code-dominated continued pretraining, 대규모 reinforcement learning, 그리고 CursorBench 중심 평가 체계를 설명했다. 보고서는 agentic software engineering 모델의 학습 환경과 benchmark 수치를 비교적 자세히 공개한 사례다.

#cursor #composer-2 #coding-agents

AI Hacker News Mar 26, 2026 2 min read

Hacker News가 주목한 ARC-AGI-3, 상호작용과 적응을 중심에 둔 새 agent benchmark

ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.

#arc-agi #benchmark #agents

LLM Reddit Mar 26, 2026 1 min read

RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

r/LocalLLaMA의 llama.cpp 비교 글은 55 upvotes와 81 comments를 기록했다. RTX 5090, DGX Spark, AMD AI395, single과 dual R9700를 같은 parameter로 비교해 local inference hardware의 현실적인 trade-off를 보여줬다.

#llama.cpp #benchmark #local-llm

AI Hacker News Mar 26, 2026 1 min read

ARC-AGI-3, interactive reasoning benchmark의 기준을 다시 세우다

ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.

#arc-agi #agents #benchmark

LLM sources.twitter Mar 25, 2026 1 min read

NVIDIA, Nemotron Nano 12B v2 VL을 온프레미스 영상 이해용 경량 오픈 모델로 전면 배치

NVIDIA는 2026년 3월 25일 Nemotron Nano 12B v2 VL이 온프레미스 video understanding을 지원하며, 자사 설명 기준으로 MediaPerf benchmark에서 30B급 대안에 가까운 성능을 더 작은 footprint로 낸다고 밝혔다. NVIDIA 모델 카드는 이를 multi-image reasoning, video understanding, visual Q&A, summarization을 위한 상용 가능 멀티모달 모델로 소개한다.

#nvidia #nemotron #multimodal

LLM Reddit Mar 23, 2026 2 min read

LocalLLaMA, Mi50에서 ROCm 7과 Vulkan을 비교한 llama.cpp 벤치마크 공유

r/LocalLLaMA의 Mi50 벤치마크 글은 llama.cpp에서 ROCm 7 nightly와 Vulkan을 비교하며, 짧은 문맥에서는 Vulkan이 강하지만 긴 문맥과 MoE에서는 ROCm이 앞선다는 관찰을 제시했다.

#llama.cpp #rocm #vulkan

LLM Hacker News Mar 23, 2026 2 min read

Hacker News가 본 no-training LLM surgery, 레이어 3개 복제로 reasoning을 끌어올린다는 주장

Show HN로 소개된 llm-circuit-finder는 GGUF 안의 특정 layer block을 한 번 더 통과시키는 방식으로 reasoning을 높일 수 있다고 주장한다. repo는 training이나 weight 변경 없이도 logical deduction 개선이 가능하다고 설명하지만, 핵심 수치는 모두 repo author의 자체 측정이다.

#llm #reasoning #benchmark

LLM Reddit Mar 16, 2026 2 min read

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.

#qwen #blackwell #vllm

LLM sources.twitter Mar 8, 2026 1 min read

Google AI Developers, Android Bench 공개… Android 개발용 LLM 리더보드 제시

Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.

#google #android #benchmark

AI Hacker News Mar 8, 2026 1 min read

Hacker News가 주목한 SWE-CI, 장기 코드 유지보수형 coding agent benchmark

Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.

#coding-agents #benchmark #software-engineering

LLM Mar 6, 2026 1 min read

Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개

Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.

#microsoft #agents #corpgen

LLM Mar 6, 2026 1 min read

Microsoft Research, 다중 업무형 에이전트 프레임워크 CORPGEN 공개

#microsoft #agents #corpgen