Taalas: LLM을 실리콘에 직접 구워 초당 17,000 토큰 달성

Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →

Read in other languages: English日本語
LLM Feb 23, 2026 By Insights AI (Reddit) 1 min read 1 views Source

모델 가중치를 실리콘에 직접 구운다

스타트업 Taalas가 AI 추론의 근본적인 패러다임 전환을 시도하고 있습니다. LLM의 가중치와 모델 아키텍처 전체를 단일 실리콘 칩에 직접 구워 넣는 방식입니다. HBM(고대역폭 메모리) 없이, 모든 것이 하나의 ASIC 칩 위에 존재합니다.

Taalas의 주요 주장

  • 초당 17,000개 이상의 토큰 처리 (사용자당)
  • 1밀리초 미만의 지연 시간
  • 클라우드 대비 20배 저렴한 비용
  • 모델에서 ASIC까지 60일 내 제작

혁신적이지만 위험한 접근법

모델 아키텍처가 몇 주 만에 바뀌는 빠른 AI 시대에, 특정 모델을 칩에 고정하는 것은 분명한 위험이 있습니다. Taalas는 이 접근법이 원시 지능보다 지연 시간이 더 중요한 분야에서 특히 유리하다고 설명합니다. 실시간 음성 모델, 실시간 아바타 생성, 컴퓨터 비전 등이 대표적인 활용 사례입니다.

60일이라는 ASIC 제작 주기가 모델 업데이트 속도보다 여전히 느리지만, 특정 도메인에서는 이 트레이드오프가 충분히 가치 있다는 것이 회사의 주장입니다. ChatJimmy.ai에서 Llama 3.1 8B 데모를 직접 체험할 수 있습니다.

Share:

Related Articles

LLM sources.twitter Mar 1, 2026 1 min read

AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.