#benchmark

RSS Feed
LLM sources.twitter Mar 25, 2026 1 min read

NVIDIA는 2026년 3월 25일 Nemotron Nano 12B v2 VL이 온프레미스 video understanding을 지원하며, 자사 설명 기준으로 MediaPerf benchmark에서 30B급 대안에 가까운 성능을 더 작은 footprint로 낸다고 밝혔다. NVIDIA 모델 카드는 이를 multi-image reasoning, video understanding, visual Q&A, summarization을 위한 상용 가능 멀티모달 모델로 소개한다.

LLM Hacker News Mar 23, 2026 2 min read

Show HN로 소개된 llm-circuit-finder는 GGUF 안의 특정 layer block을 한 번 더 통과시키는 방식으로 reasoning을 높일 수 있다고 주장한다. repo는 training이나 weight 변경 없이도 logical deduction 개선이 가능하다고 설명하지만, 핵심 수치는 모두 repo author의 자체 측정이다.

AI Hacker News Mar 8, 2026 1 min read

Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.

© 2026 Insights. All rights reserved.