#transformers

RSS Feed

LLM Reddit Mar 13, 2026 1 min read

2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.

#transformers #benchmarks #open-models

LLM Reddit Mar 11, 2026 1 min read

LocalLLaMA가 다시 소환한 Qwen2-72B layer duplication 실험

LocalLLaMA에서 재조명된 글은 Qwen2-72B의 중간 7개 layer block을 weight 수정 없이 반복 실행해 benchmark를 끌어올렸다는 David Noel Ng의 실험을 다뤘다.

#open-llm #benchmarks #transformers

LLM Reddit Mar 6, 2026 1 min read

Reddit 토론: Attention을 n^2가 아닌 d^2 관점으로 본다는 주장, 어디까지 유효한가

r/MachineLearning의 인기 토론에서 Attention의 본질을 d^2 최적화 기하로 해석하는 비공식 증명 글이 공유됐다. 커뮤니티 반응은 흥미와 회의가 공존하며, 엄밀한 검증과 재현 실험의 필요성이 강조됐다.

#attention #transformers #ml-theory

LLM Reddit Mar 1, 2026 1 min read

Reddit ML 화제: AdderBoard, 초소형 트랜스포머 덧셈 챌린지를 100파라미터 이하로 밀어내다

r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.

#transformers #tiny-models #benchmark

LLM Reddit Mar 1, 2026 1 min read

Reddit ML 화제: AdderBoard, 초소형 트랜스포머 덧셈 챌린지를 100파라미터 이하로 밀어내다

r/MachineLearning에서 주목받은 AdderBoard는 10자리 정수 덧셈 과제에서 100파라미터 미만 설계를 포함한 초소형 트랜스포머 성과를 공유한다.

#transformers #tiny-models #benchmark

LLM Reddit Feb 9, 2026 1 min read

GLM 5 출시 임박: vLLM과 Transformers에 지원 추가

중국 AI 스타트업 Zhipu AI의 차세대 언어 모델 GLM 5가 출시를 앞두고 있다. vLLM과 Hugging Face Transformers 라이브러리에 GLM 5 지원이 추가되면서, 새로운 Mixture-of-Experts 아키텍처를 탑재한 모델의 등장이 가시화되고 있다.

#glm #zhipu #moe