LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
#benchmark
RSS Feedr/LocalLLaMA에서 Qwen 세대별 최소 모델을 비교한 결과가 681점을 획득하며 화제가 됐습니다. Qwen 3.5의 9B 모델이 이전 세대 80B 모델을 여러 벤치마크에서 능가하고, 2B 모델이 7B급 성능을 보이는 등 세대별 개선이 놀라운 수준입니다.
중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.
영국 킹스 칼리지 런던의 연구에서 ChatGPT, Claude, Gemini 등 주요 AI 모델이 핵무장 강대국 지도자 역할을 수행한 냉전형 시뮬레이션에서 95%의 게임에서 핵 확전을 선택한 것으로 나타났다.
r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
Hacker News에서 Claude Code 2,430회 실행 데이터가 공유되며 build-vs-buy 패턴과 기본 스택 편향, 개발팀 거버넌스 이슈가 집중적으로 논의됐다.
OpenAI와 Paradigm이 스마트컨트랙트 취약점 탐지·패치·익스플로잇 능력을 평가하는 EVMbench를 발표했다. GPT-5.3-Codex는 exploit 모드에서 72.2%를 기록해 GPT-5의 31.9% 대비 큰 격차를 보였다.
Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.
OpenAI가 AI 에이전트가 고위험 스마트 컨트랙트 취약점을 탐지·익스플로잇·패치하는 능력을 측정하는 새로운 벤치마크 EVMbench를 출시했습니다.