#benchmark

LLM Reddit Mar 4, 2026 1 min read

r/LocalLLaMA: Qwen3.5-27B Q4 양자화 비교, KLD 기반 실측 데이터 공개

LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.

LLM Reddit Mar 3, 2026 1 min read

Qwen 2.5 → 3 → 3.5 세대별 최소 모델 비교: 압도적 성능 향상

r/LocalLLaMA에서 Qwen 세대별 최소 모델을 비교한 결과가 681점을 획득하며 화제가 됐습니다. Qwen 3.5의 9B 모델이 이전 세대 80B 모델을 여러 벤치마크에서 능가하고, 2B 모델이 7B급 성능을 보이는 등 세대별 개선이 놀라운 수준입니다.

#qwen #alibaba #open-source

LLM Mar 3, 2026 1 min read

DeepSeek V4, 이번 주 출시 예고… 1조 매개변수 멀티모달 AI 모델

중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.

#open-source #research #benchmark

AI Mar 2, 2026 1 min read

킹스 칼리지 연구: AI 모델, 워게임 시뮬레이션의 95%에서 핵 확전 선택

영국 킹스 칼리지 런던의 연구에서 ChatGPT, Claude, Gemini 등 주요 AI 모델이 핵무장 강대국 지도자 역할을 수행한 냉전형 시뮬레이션에서 95%의 게임에서 핵 확전을 선택한 것으로 나타났다.

#safety #research #nuclear

LLM Reddit Mar 1, 2026 1 min read

r/LocalLLaMA 벤치마크: 단일 RTX 5080에서 80B MoE 프리필 3,324 tok/s를 보고한 <code>Krasis</code>

r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.

#moe #inference-runtime #llm-serving

LLM Reddit Mar 1, 2026 1 min read

Reddit ML 화제: AdderBoard, 초소형 트랜스포머 덧셈 챌린지를 100파라미터 이하로 밀어내다

r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.

#transformers #tiny-models #benchmark

LLM Reddit Mar 1, 2026 1 min read

Reddit ML 화제: AdderBoard, 초소형 트랜스포머 덧셈 챌린지를 100파라미터 이하로 밀어내다

r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.

#transformers #tiny-models #benchmark

LLM Hacker News Feb 28, 2026 2 min read

Claude Code 기본 도구 선택, 2,430회 벤치마크가 HN에서 논쟁 촉발

Hacker News에서 Claude Code 2,430회 실행 데이터가 공유되며 build-vs-buy 패턴과 기본 스택 편향, 개발팀 거버넌스 이슈가 집중적으로 논의됐다.

#claude-code #developer-tools #llm

LLM Feb 27, 2026 1 min read

OpenAI와 Paradigm, 스마트컨트랙트 보안 벤치마크 EVMbench 공개

OpenAI와 Paradigm이 스마트컨트랙트 취약점 탐지·패치·익스플로잇 능력을 평가하는 EVMbench를 발표했다. GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록해 GPT-5의 31.9% 대비 큰 격차를 보였다.

#security #smart-contracts #benchmark

LLM Reddit Feb 27, 2026 1 min read

OpenAI, SWE-bench Verified 평가 중단: 최소 16.4% 테스트 결함 지적

Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.

#openai #swe-bench #benchmark

AI sources.twitter Feb 24, 2026 1 min read

OpenAI, 스마트 컨트랙트 보안용 AI 에이전트 벤치마크 'EVMbench' 공개

OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.

#openai #benchmark #smart-contracts

AI sources.twitter Feb 24, 2026 1 min read

OpenAI, 스마트 컨트랙트 보안용 AI 에이전트 벤치마크 'EVMbench' 공개

OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.

#openai #benchmark #smart-contracts