AI Reddit Feb 22, 2026 1 min read
스타트업 Taalas가 LLM 가중치를 실리콘 칩에 직접 식각하는 급진적인 접근법으로 초당 16,000 토큰이라는 놀라운 추론 속도를 달성했습니다. HBM 없이 모델 가중치를 하드웨어에 직접 구워 넣는 방식입니다.
스타트업 Taalas가 LLM 가중치를 실리콘 칩에 직접 식각하는 급진적인 접근법으로 초당 16,000 토큰이라는 놀라운 추론 속도를 달성했습니다. HBM 없이 모델 가중치를 하드웨어에 직접 구워 넣는 방식입니다.