Taalas: LLM을 실리콘에 직접 구워 초당 17,000 토큰 달성
Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →
모델 가중치를 실리콘에 직접 구운다
스타트업 Taalas가 AI 추론의 근본적인 패러다임 전환을 시도하고 있습니다. LLM의 가중치와 모델 아키텍처 전체를 단일 실리콘 칩에 직접 구워 넣는 방식입니다. HBM(고대역폭 메모리) 없이, 모든 것이 하나의 ASIC 칩 위에 존재합니다.
Taalas의 주요 주장
- 초당 17,000개 이상의 토큰 처리 (사용자당)
- 1밀리초 미만의 지연 시간
- 클라우드 대비 20배 저렴한 비용
- 모델에서 ASIC까지 60일 내 제작
혁신적이지만 위험한 접근법
모델 아키텍처가 몇 주 만에 바뀌는 빠른 AI 시대에, 특정 모델을 칩에 고정하는 것은 분명한 위험이 있습니다. Taalas는 이 접근법이 원시 지능보다 지연 시간이 더 중요한 분야에서 특히 유리하다고 설명합니다. 실시간 음성 모델, 실시간 아바타 생성, 컴퓨터 비전 등이 대표적인 활용 사례입니다.
60일이라는 ASIC 제작 주기가 모델 업데이트 속도보다 여전히 느리지만, 특정 도메인에서는 이 트레이드오프가 충분히 가치 있다는 것이 회사의 주장입니다. ChatJimmy.ai에서 Llama 3.1 8B 데모를 직접 체험할 수 있습니다.
Related Articles
스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.
AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.
Hacker News 고반응 스레드에서 Taalas의 모델 특화 실리콘 접근이 주목받았다. 회사는 하드와이어드 Llama 3.1 8B 기반으로 사용자당 17K tokens/sec 성능을 주장했다.
Comments (0)
No comments yet. Be the first to comment!