HN은 GPT-5.5를 또 하나의 모델 출시보다 컴퓨터 일을 얼마나 끝까지 맡길 수 있나의 시험대로 읽었다. 댓글도 벤치마크보다 롤아웃, API 시점, 실제 코딩 워크플로 투입 가능성에 더 오래 머물렀다.
#benchmark
RSS Feedr/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.
중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.
r/singularity는 88% fail rate를 순수한 실패로만 읽지 않았다. 많은 사용자는 같은 숫자를 12% foothold로 봤고, 다른 쪽은 benchmark age와 빠진 robot platform을 따졌다.
Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.
닫힌 benchmark 대신 live math frontier가 움직였다는 점에서 무게가 다르다. Together는 EinsteinArena agents가 11차원 kissing number 하한을 593에서 604로 끌어올렸고, 4월 11일 기준 open problem에서 11개의 새로운 SOTA를 기록했다고 적었다.
상세한 `r/LocalLLaMA` 벤치마크는 `Gemma 4 31B`에 `Gemma 4 E2B` 초안 모델을 붙인 `llama.cpp` 구성에서 평균 처리량이 `57.17 t/s`에서 `73.73 t/s`로 올랐다고 보고했다.
vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.
약 350포인트를 받은 LocalLLaMA 글은 Gemma 4 26B A3B가 적절한 runtime 설정과 함께할 때 로컬 coding-agent·tool-calling 워크플로에서 유난히 강하게 느껴진다고 주장한다. 작성자는 다른 로컬 모델 스택에서 겪었던 prompt caching과 function calling 문제와 대비해 이를 설명했다.
LocalLLaMA에 공유된 Mac LLM Bench 결과는 32GB Apple Silicon 환경에서 MoE 모델이 dense 32B 계열보다 더 나은 latency-to-capability 균형을 보일 수 있음을 시사한다. 중요한 점은 숫자 하나보다 재현 가능한 benchmark workflow 자체다.
LocalLLaMA의 한 상세 벤치마크 포스트가 Qwen3.5 397B A17B를 기준으로 $10K Dual DGX Sparks와 $10K Mac Studio M3 Ultra 512GB를 비교했다. Mac은 30~40 tok/s generation과 쉬운 setup, Dual Sparks는 더 빠른 prefill과 embedding 처리 성능을 보여줬지만 운영 난이도는 훨씬 높았다.
2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.