Taalas: LLM을 실리콘에 직접 구워 초당 17,000 토큰 달성
Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →
모델 가중치를 실리콘에 직접 구운다
스타트업 Taalas가 AI 추론의 근본적인 패러다임 전환을 시도하고 있습니다. LLM의 가중치와 모델 아키텍처 전체를 단일 실리콘 칩에 직접 구워 넣는 방식입니다. HBM(고대역폭 메모리) 없이, 모든 것이 하나의 ASIC 칩 위에 존재합니다.
Taalas의 주요 주장
- 초당 17,000개 이상의 토큰 처리 (사용자당)
- 1밀리초 미만의 지연 시간
- 클라우드 대비 20배 저렴한 비용
- 모델에서 ASIC까지 60일 내 제작
혁신적이지만 위험한 접근법
모델 아키텍처가 몇 주 만에 바뀌는 빠른 AI 시대에, 특정 모델을 칩에 고정하는 것은 분명한 위험이 있습니다. Taalas는 이 접근법이 원시 지능보다 지연 시간이 더 중요한 분야에서 특히 유리하다고 설명합니다. 실시간 음성 모델, 실시간 아바타 생성, 컴퓨터 비전 등이 대표적인 활용 사례입니다.
60일이라는 ASIC 제작 주기가 모델 업데이트 속도보다 여전히 느리지만, 특정 도메인에서는 이 트레이드오프가 충분히 가치 있다는 것이 회사의 주장입니다. ChatJimmy.ai에서 Llama 3.1 8B 데모를 직접 체험할 수 있습니다.
Related Articles
스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.
r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.
Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.
Comments (0)
No comments yet. Be the first to comment!