#benchmark

RSS Feed

LLM Hacker News 3d ago 1 min read

GPT-5.5에 HN 들썩, 관건은 "끝까지 가는가"

HN은 GPT-5.5를 또 하나의 모델 출시보다 컴퓨터 일을 얼마나 끝까지 맡길 수 있나의 시험대로 읽었다. 댓글도 벤치마크보다 롤아웃, API 시점, 실제 코딩 워크플로 투입 가능성에 더 오래 머물렀다.

#openai #gpt-5.5 #agentic-coding

LLM Reddit 4d ago 1 min read

MacBook Air M5에서 local coding LLM 21개 비교, LocalLLaMA가 원한 건 vibe 아닌 숫자

r/LocalLLaMA의 MacBook Air M5 benchmark 글은 Qwen 3.6 35B-A3B의 89.6% HumanEval+ 결과뿐 아니라, RAM과 tok/s를 함께 본 실사용 관점을 제공했다.

#localllama #benchmark #qwen

AI sources.twitter Apr 19, 2026 1 min read

ParseBench, 실제 기업 문서 OCR agent를 16.7만개 규칙 benchmark로 검증한다

중요한 점은 document agent가 table, chart value, visual grounding을 잃으면 실제 업무 판단이 흔들린다는 데 있다. ParseBench는 약 2,000쪽의 enterprise document, 16.7만개+ rule-based tests, 14개 method 평가를 제시한다.

#llamaindex #parsebench #ocr

Humanoid Robots Reddit Apr 17, 2026 2 min read

Humanoid home-task 88% fail rate, r/singularity는 반쯤 찬 잔으로 봤다

r/singularity는 88% fail rate를 순수한 실패로만 읽지 않았다. 많은 사용자는 같은 숫자를 12% foothold로 봤고, 다른 쪽은 benchmark age와 빠진 robot platform을 따졌다.

#humanoid-robots #home-robots #benchmark

LLM sources.twitter Apr 14, 2026 1 min read

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다

Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.

#gemma-4 #quantization #vllm

AI sources.twitter Apr 14, 2026 1 min read

EinsteinArena, Newton 시대 kissing number 하한을 593에서 604로 끌어올리다

닫힌 benchmark 대신 live math frontier가 움직였다는 점에서 무게가 다르다. Together는 EinsteinArena agents가 11차원 kissing number 하한을 593에서 604로 끌어올렸고, 4월 11일 기준 open problem에서 11개의 새로운 SOTA를 기록했다고 적었다.

#agents #open-science #mathematics

LLM Reddit Apr 13, 2026 1 min read

LocalLLaMA 벤치마크: Gemma 4 speculative decoding 평균 처리량 29% 향상 주장

상세한 `r/LocalLLaMA` 벤치마크는 `Gemma 4 31B`에 `Gemma 4 E2B` 초안 모델을 붙인 `llama.cpp` 구성에서 평균 처리량이 `57.17 t/s`에서 `73.73 t/s`로 올랐다고 보고했다.

#speculative-decoding #gemma-4 #llama-cpp

LLM sources.twitter Apr 10, 2026 1 min read

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다

vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.

#vllm #mlperf #benchmark

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA 사용자, Gemma 4 26B A3B가 로컬 tool calling을 안정적으로 만든다고 평가

약 350포인트를 받은 LocalLLaMA 글은 Gemma 4 26B A3B가 적절한 runtime 설정과 함께할 때 로컬 coding-agent·tool-calling 워크플로에서 유난히 강하게 느껴진다고 주장한다. 작성자는 다른 로컬 모델 스택에서 겪었던 prompt caching과 function calling 문제와 대비해 이를 설명했다.

#gemma-4 #local-llm #tool-calling

LLM Reddit Apr 7, 2026 1 min read

MacBook Air M5 32GB에서 37개 LLM을 비교한 LocalLLaMA 벤치마크

LocalLLaMA에 공유된 Mac LLM Bench 결과는 32GB Apple Silicon 환경에서 MoE 모델이 dense 32B 계열보다 더 나은 latency-to-capability 균형을 보일 수 있음을 시사한다. 중요한 점은 숫자 하나보다 재현 가능한 benchmark workflow 자체다.

#apple-silicon #benchmark #llama-cpp

LLM Reddit Apr 2, 2026 2 min read

LocalLLaMA 비교: Qwen3.5 397B 구동에서 Dual DGX Sparks와 512GB Mac Studio 맞대결

LocalLLaMA의 한 상세 벤치마크 포스트가 Qwen3.5 397B A17B를 기준으로 $10K Dual DGX Sparks와 $10K Mac Studio M3 Ultra 512GB를 비교했다. Mac은 30~40 tok/s generation과 쉬운 setup, Dual Sparks는 더 빠른 prefill과 embedding 처리 성능을 보여줬지만 운영 난이도는 훨씬 높았다.

#qwen3.5 #mac-studio #dgx-spark

AI Reddit Mar 30, 2026 1 min read

r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목

2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.

#arc-agi #agents #benchmark