Meta Llama 4、ネイティブマルチモーダルAI時代を開幕... 1000万トークンコンテキスト対応

ネイティブマルチモーダルの革新

MetaがLlama 4シリーズを発表し、AI業界に新たなマイルストーンを築いた。Llama 4 ScoutとLlama 4 Maverickは、初のオープンウェイト・ネイティブマルチモーダルモデルで、テキスト・画像・動画を最初から統合処理するように設計されている。

Llama 4 Maverickは、170億のアクティブパラメータと128のエキスパートを持つMixture-of-Experts(MoE)アーキテクチャを使用するMeta初のモデルだ。

広範なベンチマークでGPT-4oとGemini 2.0 Flashを上回り、同クラス最高のマルチモーダルモデルであることを証明した。

Llama 4 Scoutは、Llama 3の128Kトークンから業界最長の1000万トークンへとコンテキスト長を劇的に拡張した。これは数百ページの文書、数時間分の動画、または大規模コードベースを単一のコンテキストで処理できることを意味する。

MetaはLlama 4をオープンウェイトモデルとして公開し、研究者や開発者が自由に活用・改善できるようにした。これは商用クローズドモデル(GPT、Claude、Gemini)と比較して、透明性とアクセシビリティの面で大きな差別化要因となる。

Llama 4の登場は、マルチモーダルAIの民主化を意味する。以前はOpenAI、Google、Anthropicなど大手テック企業のみが提供していたマルチモーダル能力が、今では誰でも使用・カスタマイズできるようになった。

MoEアーキテクチャの導入は効率性の面でも重要だ。必要なエキスパートのみを活性化することで計算コストを削減しながら、性能は維持できる。