Meta, 네이티브 멀티모달 Llama 4 Scout·Maverick 오픈소스 공개

오픈소스 AI의 게임 체인저

Meta가 Llama 4 Scout와 Llama 4 Maverick를 공개했습니다. 이는 최초의 오픈 웨이트 네이티브 멀티모달 모델이며, Mixture-of-Experts(MoE) 아키텍처를 채택한 첫 Llama 시리즈입니다.

Meta는 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가하는 Llama 4 Behemoth 티처 모델도 학습 중이나, 아직 공개하지 않았습니다.

Llama 4 모델 라인업

Llama 4 Scout

설계 목적: 장시간 워크플로 및 대규모 데이터 분석
컨텍스트 길이: 전례 없는 수준의 긴 컨텍스트 지원
적합 용도: 연구 보고서 작성, 대규모 문서 분석, 복잡한 데이터 처리

Llama 4 Maverick

설계 목적: 추론 능력과 응답 속도의 균형
적합 용도: 코딩, 챗봇, 기술 지원, 일반 대화
특징: 범용성이 뛰어나며 다양한 작업에서 안정적 성능

Llama 4 Behemoth (미공개)

역할: 티처 모델(Scout와 Maverick 학습용)
성능: MATH-500, GPQA Diamond 등 STEM 벤치마크에서 GPT-4.5 능가
상태: 아직 학습 중이며 공개 일정 미정

기술적 혁신

네이티브 멀티모달리티

Llama 4는 텍스트와 이미지를 단일 통합 아키텍처에서 처리합니다. 기존 모델들이 별도의 비전 인코더를 부착한 것과 달리, Llama 4는:

텍스트와 이미지를 동일한 임베딩 공간에서 학습
크로스 모달 추론 능력 향상
이미지-텍스트 간 상호작용 이해 개선

Mixture-of-Experts (MoE)

Llama 4는 MoE 아키텍처를 채택하여:

효율적 계산: 활성화되는 파라미터만 사용해 추론 비용 절감
전문화: 각 전문가(Expert)가 특정 작업에 특화
확장성: 모델 크기를 키우면서도 추론 속도 유지

이는 DeepSeek-V3, Mixtral 등이 입증한 MoE의 효과를 오픈소스 멀티모달 모델에 도입한 첫 사례입니다.

성능 비교

STEM 벤치마크

Llama 4 Behemoth(티처 모델)는:

MATH-500: 고급 수학 문제 해결에서 GPT-4.5 능가
GPQA Diamond: 대학원 수준 과학 질문에서 Claude Sonnet 3.7 및 Gemini 2.0 Pro 초과

멀티모달 작업

Scout와 Maverick은:

이미지 캡셔닝 및 시각적 질문 응답에서 GPT-4V 수준 달성
도표, 차트, 다이어그램 해석에서 우수한 성능
복잡한 시각-언어 추론 작업에서 경쟁력 확보

접근 방법 및 배포

Hugging Face

Llama 4 Scout와 Maverick은 Hugging Face에서 다운로드 가능합니다. 오픈 웨이트 라이선스로 제공되어:

연구 및 상업적 사용 가능
파인튜닝 및 증류 허용
자체 인프라에 배포 가능

Meta AI 통합

Llama 4는 다음 플랫폼에서 즉시 사용 가능합니다:

WhatsApp
Messenger
Instagram Direct
Meta.AI 웹사이트

오픈소스 AI 생태계에 미치는 영향

연구 민주화

Llama 4의 공개로:

대학 연구실: 고가의 클로즈드 소스 API 없이 최첨단 멀티모달 연구 가능
스타트업: 자체 멀티모달 애플리케이션 구축 비용 대폭 절감
개발 도상국: AI 기술 접근 장벽 낮아짐

파인튜닝 가능성

오픈 웨이트 모델이므로 다음이 가능합니다:

도메인 특화 의료, 법률, 금융 모델 개발
다국어 지원 강화(특히 저자원 언어)
프라이버시 중시 온프레미스 배포

경쟁 환경

클로즈드 소스 모델

Llama 4는 클로즈드 소스 선두주자들과 성능 격차를 크게 줄였습니다:

GPT-4.5 (OpenAI): 일부 벤치마크에서 Llama 4 Behemoth에 뒤처짐
Claude Opus 4.6 (Anthropic): 장문 컨텍스트에서 경쟁
Gemini 2.0 Pro (Google): 멀티모달 작업에서 유사한 성능

오픈소스 경쟁자

Qwen 2.5 (Alibaba): 중국어에 강점, 멀티모달은 제한적
DeepSeek-V3: MoE 아키텍처 선구자이나 텍스트 전용
Mistral Large: 상업적 제약이 있는 준오픈소스

Llama 4는 완전 오픈 웨이트 + 네이티브 멀티모달 + MoE 조합으로 차별화됩니다.

산업 응용 사례

교육

다이어그램 및 차트 자동 설명
시각적 교육 자료 생성
학생 질문에 대한 멀티모달 답변

의료

의료 영상(X-ray, MRI) 보조 분석
환자 차트 자동 요약
의학 문헌 및 이미지 통합 검색

전자상거래

제품 이미지 기반 자동 설명 생성
시각적 검색 및 추천
고객 문의에 대한 이미지 기반 답변

제한 사항 및 향후 계획

현재 한계

비디오 처리: 아직 정지 이미지만 지원
오디오 입력: 음성 인식 및 이해 미지원
Behemoth 미공개: 가장 강력한 모델은 아직 학습 중

향후 로드맵

Meta는 다음 단계를 계획 중입니다:

Llama 4 Behemoth 공개
비디오 및 오디오 모달리티 추가
더 긴 컨텍스트 지원(현재도 업계 최고 수준이지만)
에이전트 기능 강화

Llama 오픈소스 철학

Mark Zuckerberg는 Meta의 오픈소스 AI 전략을 다음과 같이 설명합니다:

"AI는 소수의 기업이 통제해서는 안 되는 기초 기술입니다. Llama를 오픈소스로 공개함으로써 전 세계 개발자, 연구자, 기업이 AI의 혜택을 누릴 수 있습니다."

Llama 4의 공개는 이러한 철학의 연장선으로, AI 산업에서 오픈소스와 클로즈드 소스 간 경쟁을 더욱 치열하게 만들 것으로 예상됩니다.