LLM Reddit Mar 13, 2026 1 min read
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
LocalLLaMA에서 재조명된 글은 Qwen2-72B의 중간 7개 layer block을 weight 수정 없이 반복 실행해 benchmark를 끌어올렸다는 David Noel Ng의 실험을 다뤘다.
r/MachineLearning의 인기 토론에서 Attention의 본질을 d^2 최적화 기하로 해석하는 비공식 증명 글이 공유됐다. 커뮤니티 반응은 흥미와 회의가 공존하며, 엄밀한 검증과 재현 실험의 필요성이 강조됐다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.
중국 AI 스타트업 Zhipu AI의 차세대 언어 모델 GLM 5가 출시를 앞두고 있다. vLLM과 Hugging Face Transformers 라이브러리에 GLM 5 지원이 추가되면서, 새로운 Mixture-of-Experts 아키텍처를 탑재한 모델의 등장이 가시화되고 있다.