Ollama 0.17 출시 — 새 추론 엔진으로 로컬 AI 최대 40% 빠르게

Ollama 0.17: 새 아키텍처로 로컬 AI 성능 대약진

로컬 AI 모델 실행 도구 Ollama가 2026년 2월 22일 버전 0.17을 출시하며 추론 엔진 아키텍처를 전면 개편했다. 새 버전은 llama.cpp의 서버 모드 의존에서 벗어나 독자적인 추론 엔진을 도입해 NVIDIA GPU에서 최대 40% 빠른 프롬프트 처리와 18% 향상된 토큰 생성 속도를 제공한다.

새 추론 엔진 'Ollama Engine'

0.17의 핵심은 Ollama 엔진이다. llama.cpp 라이브러리를 더 직접적으로 통합하고 자체 스케줄링·메모리 관리 레이어로 감싸, 모델 로딩 방식, GPU 간 메모리 할당, 동시 요청 처리를 더 세밀하게 제어할 수 있게 됐다. 사용자는 기존 방식 그대로 Ollama를 사용하면 되며 별도 설정 변경이 필요 없다.

성능 향상 요약

NVIDIA GPU에서 프롬프트 처리(Prompt Eval) 최대 40% 향상
NVIDIA GPU에서 토큰 생성 속도 최대 18% 향상
Apple Silicon에서 프롬프트 처리 약 10~15% 향상

멀티-GPU 텐서 병렬 처리 및 메모리 개선

700억 파라미터 이상 대형 모델을 여러 NVIDIA GPU에 분산할 때 더욱 효율적인 텐서 병렬 처리를 지원한다. 개선된 KV 캐시 양자화로 메모리를 더 효율적으로 사용해 GPU 메모리를 소진하지 않고도 더 긴 대화와 문서 처리가 가능해졌다.

새로운 하드웨어 지원

AMD Radeon RX 9070 시리즈(RDNA 4 아키텍처) 지원이 추가됐으며, 업데이트된 oneAPI와 SYCL 통합을 통해 Intel Arc GPU 호환성도 향상됐다. Ollama의 지원 하드웨어 범위가 NVIDIA와 Apple Silicon을 넘어 더욱 확장됐다.

원문: Ollama Releases — GitHub

Ollama 0.17 출시 — 새 추론 엔진으로 로컬 AI 최대 40% 빠르게

Ollama 0.17: 새 아키텍처로 로컬 AI 성능 대약진

새 추론 엔진 'Ollama Engine'

성능 향상 요약

멀티-GPU 텐서 병렬 처리 및 메모리 개선

새로운 하드웨어 지원

Related Articles

llmfit: 시스템 사양에 맞게 LLM 모델을 자동으로 최적화하는 도구

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Moonshot AI, 1조 파라미터 오픈소스 모델 Kimi K2.5 공개