Meta, 네이티브 멀티모달 Llama 4 Scout·Maverick 오픈소스 공개
오픈소스 AI의 게임 체인저
Meta가 Llama 4 Scout와 Llama 4 Maverick를 공개했습니다. 이는 최초의 오픈 웨이트 네이티브 멀티모달 모델이며, Mixture-of-Experts(MoE) 아키텍처를 채택한 첫 Llama 시리즈입니다.
Meta는 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가하는 Llama 4 Behemoth 티처 모델도 학습 중이나, 아직 공개하지 않았습니다.
Llama 4 모델 라인업
Llama 4 Scout
- 설계 목적: 장시간 워크플로 및 대규모 데이터 분석
- 컨텍스트 길이: 전례 없는 수준의 긴 컨텍스트 지원
- 적합 용도: 연구 보고서 작성, 대규모 문서 분석, 복잡한 데이터 처리
Llama 4 Maverick
- 설계 목적: 추론 능력과 응답 속도의 균형
- 적합 용도: 코딩, 챗봇, 기술 지원, 일반 대화
- 특징: 범용성이 뛰어나며 다양한 작업에서 안정적 성능
Llama 4 Behemoth (미공개)
- 역할: 티처 모델(Scout와 Maverick 학습용)
- 성능: MATH-500, GPQA Diamond 등 STEM 벤치마크에서 GPT-4.5 능가
- 상태: 아직 학습 중이며 공개 일정 미정
기술적 혁신
네이티브 멀티모달리티
Llama 4는 텍스트와 이미지를 단일 통합 아키텍처에서 처리합니다. 기존 모델들이 별도의 비전 인코더를 부착한 것과 달리, Llama 4는:
- 텍스트와 이미지를 동일한 임베딩 공간에서 학습
- 크로스 모달 추론 능력 향상
- 이미지-텍스트 간 상호작용 이해 개선
Mixture-of-Experts (MoE)
Llama 4는 MoE 아키텍처를 채택하여:
- 효율적 계산: 활성화되는 파라미터만 사용해 추론 비용 절감
- 전문화: 각 전문가(Expert)가 특정 작업에 특화
- 확장성: 모델 크기를 키우면서도 추론 속도 유지
이는 DeepSeek-V3, Mixtral 등이 입증한 MoE의 효과를 오픈소스 멀티모달 모델에 도입한 첫 사례입니다.
성능 비교
STEM 벤치마크
Llama 4 Behemoth(티처 모델)는:
- MATH-500: 고급 수학 문제 해결에서 GPT-4.5 능가
- GPQA Diamond: 대학원 수준 과학 질문에서 Claude Sonnet 3.7 및 Gemini 2.0 Pro 초과
멀티모달 작업
Scout와 Maverick은:
- 이미지 캡셔닝 및 시각적 질문 응답에서 GPT-4V 수준 달성
- 도표, 차트, 다이어그램 해석에서 우수한 성능
- 복잡한 시각-언어 추론 작업에서 경쟁력 확보
접근 방법 및 배포
Hugging Face
Llama 4 Scout와 Maverick은 Hugging Face에서 다운로드 가능합니다. 오픈 웨이트 라이선스로 제공되어:
- 연구 및 상업적 사용 가능
- 파인튜닝 및 증류 허용
- 자체 인프라에 배포 가능
Meta AI 통합
Llama 4는 다음 플랫폼에서 즉시 사용 가능합니다:
- Messenger
- Instagram Direct
- Meta.AI 웹사이트
오픈소스 AI 생태계에 미치는 영향
연구 민주화
Llama 4의 공개로:
- 대학 연구실: 고가의 클로즈드 소스 API 없이 최첨단 멀티모달 연구 가능
- 스타트업: 자체 멀티모달 애플리케이션 구축 비용 대폭 절감
- 개발 도상국: AI 기술 접근 장벽 낮아짐
파인튜닝 가능성
오픈 웨이트 모델이므로 다음이 가능합니다:
- 도메인 특화 의료, 법률, 금융 모델 개발
- 다국어 지원 강화(특히 저자원 언어)
- 프라이버시 중시 온프레미스 배포
경쟁 환경
클로즈드 소스 모델
Llama 4는 클로즈드 소스 선두주자들과 성능 격차를 크게 줄였습니다:
- GPT-4.5 (OpenAI): 일부 벤치마크에서 Llama 4 Behemoth에 뒤처짐
- Claude Opus 4.6 (Anthropic): 장문 컨텍스트에서 경쟁
- Gemini 2.0 Pro (Google): 멀티모달 작업에서 유사한 성능
오픈소스 경쟁자
- Qwen 2.5 (Alibaba): 중국어에 강점, 멀티모달은 제한적
- DeepSeek-V3: MoE 아키텍처 선구자이나 텍스트 전용
- Mistral Large: 상업적 제약이 있는 준오픈소스
Llama 4는 완전 오픈 웨이트 + 네이티브 멀티모달 + MoE 조합으로 차별화됩니다.
산업 응용 사례
교육
- 다이어그램 및 차트 자동 설명
- 시각적 교육 자료 생성
- 학생 질문에 대한 멀티모달 답변
의료
- 의료 영상(X-ray, MRI) 보조 분석
- 환자 차트 자동 요약
- 의학 문헌 및 이미지 통합 검색
전자상거래
- 제품 이미지 기반 자동 설명 생성
- 시각적 검색 및 추천
- 고객 문의에 대한 이미지 기반 답변
제한 사항 및 향후 계획
현재 한계
- 비디오 처리: 아직 정지 이미지만 지원
- 오디오 입력: 음성 인식 및 이해 미지원
- Behemoth 미공개: 가장 강력한 모델은 아직 학습 중
향후 로드맵
Meta는 다음 단계를 계획 중입니다:
- Llama 4 Behemoth 공개
- 비디오 및 오디오 모달리티 추가
- 더 긴 컨텍스트 지원(현재도 업계 최고 수준이지만)
- 에이전트 기능 강화
Llama 오픈소스 철학
Mark Zuckerberg는 Meta의 오픈소스 AI 전략을 다음과 같이 설명합니다:
"AI는 소수의 기업이 통제해서는 안 되는 기초 기술입니다. Llama를 오픈소스로 공개함으로써 전 세계 개발자, 연구자, 기업이 AI의 혜택을 누릴 수 있습니다."
Llama 4의 공개는 이러한 철학의 연장선으로, AI 산업에서 오픈소스와 클로즈드 소스 간 경쟁을 더욱 치열하게 만들 것으로 예상됩니다.
Related Articles
중국 Moonshot AI가 1조 개 파라미터 MoE 아키텍처 기반 오픈소스 멀티모달 모델 Kimi K2.5를 출시하고, 최대 100개 에이전트를 동시 조율하는 Agent Swarm 기술을 공개했다.
Meta가 Llama 파생 모델을 배포하던 오픈소스 프로젝트 Heretic에 법적 통보를 보냈습니다. Heretic은 갈릴레오 재판을 인용하는 풍자적 공개 성명을 발표하면서 독일 Codeberg에 미러를 설치했습니다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.