부식 중

Taalas: LLM을 실리콘에 직접 구워 초당 17,000 토큰 달성

Original: Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second View original →

Read in other languages: English日本語
LLM Feb 23, 2026 By Insights AI (Reddit) 1 min read 5 views Source

모델 가중치를 실리콘에 직접 구운다

스타트업 Taalas가 AI 추론의 근본적인 패러다임 전환을 시도하고 있습니다. LLM의 가중치와 모델 아키텍처 전체를 단일 실리콘 칩에 직접 구워 넣는 방식입니다. HBM(고대역폭 메모리) 없이, 모든 것이 하나의 ASIC 칩 위에 존재합니다.

Taalas의 주요 주장

  • 초당 17,000개 이상의 토큰 처리 (사용자당)
  • 1밀리초 미만의 지연 시간
  • 클라우드 대비 20배 저렴한 비용
  • 모델에서 ASIC까지 60일 내 제작

혁신적이지만 위험한 접근법

모델 아키텍처가 몇 주 만에 바뀌는 빠른 AI 시대에, 특정 모델을 칩에 고정하는 것은 분명한 위험이 있습니다. Taalas는 이 접근법이 원시 지능보다 지연 시간이 더 중요한 분야에서 특히 유리하다고 설명합니다. 실시간 음성 모델, 실시간 아바타 생성, 컴퓨터 비전 등이 대표적인 활용 사례입니다.

60일이라는 ASIC 제작 주기가 모델 업데이트 속도보다 여전히 느리지만, 특정 도메인에서는 이 트레이드오프가 충분히 가치 있다는 것이 회사의 주장입니다. ChatJimmy.ai에서 Llama 3.1 8B 데모를 직접 체험할 수 있습니다.

Share: Long

Related Articles

LLM Apr 16, 2026 1 min read

Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.