카르파티: LLM 메모리·연산 최적화의 핵심 — SRAM vs DRAM 트레이드오프
Original: Karpathy on LLM Memory+Compute: SRAM vs DRAM Trade-offs and the Next Hardware Frontier View original →
LLM 시대의 핵심 기술 과제
AI 연구자 안드레이 카르파티(Andrej Karpathy)는 2026년 2월 X(구 트위터)에서 토큰 수요 폭증이 예상되는 LLM 시대에 메모리와 연산 자원을 최적으로 조합하는 것이 중요한 기회라고 지적했다.
온칩 SRAM vs 외부 DRAM
카르파티는 칩 제조 공정에 기인한 근본적이고 잘 알려지지 않은 제약을 설명했다. 현재 AI 칩에는 두 가지 완전히 다른 메모리 풀이 존재한다.
- 온칩 SRAM: 연산 유닛 바로 옆에 위치하며 매우 빠르지만 용량이 매우 작음
- 외부 DRAM(HBM): 용량은 매우 크지만, 데이터를 꺼내는 속도가 제한적 — "긴 빨대를 통해 빨아들여야 하는" 구조
설계 과제
카르파티는 LLM의 주요 워크플로우(추론 프리필/디코드, 훈련/파인튜닝 등)에서 최고의 처리량·지연시간·달러 효율을 달성하기 위한 메모리+연산의 최적 물리적 기판 설계가 "오늘날 가장 흥미롭고 보상이 높은 지적 퍼즐"이라고 강조했다. 그는 NVIDIA의 시가총액 4.6조 달러를 그 증거로 들었다.
현재의 딜레마
카르파티는 가장 중요한 워크플로우 — 긴 토큰 컨텍스트에서 에이전틱 루프를 거치는 추론 디코드 — 가 현재 두 진영 모두에서 동시에 달성하기 어렵다고 지적했다.
- HBM 중심(NVIDIA 계열): 고용량이지만 메모리 대역폭 제한
- SRAM 중심(Cerebras 계열): 빠르지만 용량 제한
MatX에 대한 언급
카르파티는 이 문제를 해결하려는 MatX 팀에 대해 "A++ 수준"이라고 극찬하며, 소규모 투자에 참여하고 있음을 밝혔다. 빠르고 저렴하게 많은 토큰을 생성하기 위한 경쟁에서 올바른 하드웨어 아키텍처의 선택이 얼마나 중요한지를 잘 보여주는 통찰이다.
Related Articles
r/MachineLearning의 새 글이 TurboQuant를 KV cache 논의에서 weight compression 단계로 끌어왔다. GitHub 구현은 low-bit LLM inference용 drop-in path를 목표로 한다.
Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.
HN에서는 "Diffusion도 이제 품질을 포기하지 않아도 되는 것 아니냐"는 지점에 바로 반응했다. I-DLM은 병렬에 가까운 생성 속도와 AR급 품질을 함께 가져갈 수 있다는 주장으로, 실제 inference stack에서 이 약속이 통할지까지 토론을 끌어냈다.
Comments (0)
No comments yet. Be the first to comment!