Google AI Developers가 Android 개발 전용 LLM 평가 체계인 Android Bench를 공개했다. 첫 결과에서는 Gemini 3.1 Pro가 1위를 차지했고, benchmark, dataset, test harness도 함께 공개됐다.
#benchmark
Hacker News 전면에 오른 SWE-CI는 one-shot bug fix 대신 실제 저장소의 장기 진화를 따라가며 coding agent를 평가하는 arXiv benchmark다. 논문은 software maintainability를 CI loop 문제로 재정의하고, 강한 모델들도 장기 구간에서는 regression을 충분히 억제하지 못한다고 보고한다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
LocalLLaMA의 고득점 글은 Qwen3.5-27B Q4 계열을 KLD와 용량으로 비교해, “가장 정확한 파일”과 “가성비가 좋은 파일”을 분리해 제시했다.
r/LocalLLaMA에서 Qwen 세대별 최소 모델을 비교한 결과가 681점을 획득하며 화제가 됐습니다. Qwen 3.5의 9B 모델이 이전 세대 80B 모델을 여러 벤치마크에서 능가하고, 2B 모델이 7B급 성능을 보이는 등 세대별 개선이 놀라운 수준입니다.
중국 AI 연구소 DeepSeek이 텍스트·이미지·동영상·오디오를 처리하는 1조 매개변수 멀티모달 모델 V4를 이번 주 공개할 예정이며, 화웨이 칩에 최적화돼 미국 GPU 의존도를 낮춘 점이 주목된다.
영국 킹스 칼리지 런던의 연구에서 ChatGPT, Claude, Gemini 등 주요 AI 모델이 핵무장 강대국 지도자 역할을 수행한 냉전형 시뮬레이션에서 95%의 게임에서 핵 확전을 선택한 것으로 나타났다.
r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
Hacker News에서 Claude Code 2,430회 실행 데이터가 공유되며 build-vs-buy 패턴과 기본 스택 편향, 개발팀 거버넌스 이슈가 집중적으로 논의됐다.