타알라스, LLM을 칩에 '인쇄'하다: GPU 대비 10배 빠른 AI 추론 ASIC

Original: How Taalas "prints" LLM onto a chip? View original →

Read in other languages: English日本語
LLM Feb 22, 2026 By Insights AI (HN) 1 min read Source

LLM을 실리콘에 새기다

스타트업 타알라스(Taalas)가 업계를 놀라게 할 ASIC 칩을 선보였습니다. Llama 3.1 8B 모델의 가중치(3/6비트 양자화)를 실리콘 반도체에 물리적으로 새겨 초당 17,000개의 토큰을 생성합니다. A4 용지 30장 분량의 텍스트를 단 1초 만에 출력하는 속도입니다.

GPU의 메모리 병목 문제

기존 GPU 기반 LLM 추론은 심각한 메모리 병목 문제를 안고 있습니다. Llama 3.1 8B는 32개의 레이어로 구성되어 있으며, 토큰 하나를 생성할 때마다 GPU는 VRAM에서 각 레이어의 가중치를 반복적으로 불러오고 저장해야 합니다. 이 과정에서 메모리 버스가 지속적으로 사용되어 지연과 에너지 소비가 발생합니다. 이를 '폰 노이만 병목(Von Neumann Bottleneck)' 또는 '메모리 벽'이라고 합니다.

타알라스의 혁신적 접근

타알라스는 이 문제를 근본적으로 해결했습니다. Llama 3.1 8B의 32개 레이어를 칩 위에 순서대로 물리적으로 새겨 넣었습니다. 모델의 가중치가 트랜지스터로 구현되어 있어 외부 DRAM이 전혀 필요하지 않습니다. 사용자의 입력이 들어오면 벡터로 변환되어 Layer 1의 트랜지스터를 통해 흐르고, 전기 신호가 물리적인 배선을 따라 다음 레이어로 이동하며 최종 토큰이 생성됩니다.

타알라스는 또한 4비트 데이터를 단일 트랜지스터로 저장하고 연산할 수 있는 독자적인 '매직 멀티플라이어' 기술을 개발했다고 밝혔습니다.

성능 및 비용 비교

  • 속도: 초당 17,000 토큰 (최신 GPU 추론 대비 약 10배)
  • 비용: GPU 기반 시스템 대비 소유 비용 10배 절감
  • 전력: 10배 적은 전력 소비

온칩 SRAM은 KV 캐시(대화 컨텍스트 윈도우)와 LoRA 어댑터를 위해 사용되며, 외부 DRAM/HBM은 완전히 제거되었습니다.

한계와 전망

이 칩은 CD-ROM처럼 하나의 모델만 실행할 수 있는 고정 기능 ASIC입니다. 타알라스는 기본 칩에 범용 로직 게이트 그리드를 설계하여 특정 모델 매핑 시 최상단 두 레이어만 커스터마이징하면 됩니다. Llama 3.1 8B 칩 개발에 2개월이 소요되었으며, 이는 커스텀 칩 세계에서는 매우 빠른 속도입니다. GPU 없이 로컬 모델을 실행하는 사람들에게 이 기술의 대중화는 AI 추론의 패러다임 변화를 의미할 수 있습니다.

Share:

Related Articles

LLM Reddit Feb 23, 2026 1 min read

스타트업 Taalas가 LLM의 가중치와 모델 아키텍처를 단일 실리콘 칩에 직접 구워, 초당 17,000 토큰 이상과 1밀리초 미만의 지연 시간을 달성했다고 주장합니다. Reddit r/singularity에서 814점을 받으며 AI 하드웨어 혁신 논의를 촉발했습니다.

LLM sources.twitter Mar 1, 2026 1 min read

AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.