Meta Llama 4、ネイティブマルチモーダルAI時代を開幕... 1000万トークンコンテキスト対応
ネイティブマルチモーダルの革新
MetaがLlama 4シリーズを発表し、AI業界に新たなマイルストーンを築いた。Llama 4 ScoutとLlama 4 Maverickは、初のオープンウェイト・ネイティブマルチモーダルモデルで、テキスト・画像・動画を最初から統合処理するように設計されている。
Llama 4 Maverick: 170億パラメータの強者
Llama 4 Maverickは、170億のアクティブパラメータと128のエキスパートを持つMixture-of-Experts(MoE)アーキテクチャを使用するMeta初のモデルだ。
広範なベンチマークでGPT-4oとGemini 2.0 Flashを上回り、同クラス最高のマルチモーダルモデルであることを証明した。
Llama 4 Scout: 1000万トークンコンテキスト
Llama 4 Scoutは、Llama 3の128Kトークンから業界最長の1000万トークンへとコンテキスト長を劇的に拡張した。これは数百ページの文書、数時間分の動画、または大規模コードベースを単一のコンテキストで処理できることを意味する。
オープンウェイト戦略の意義
MetaはLlama 4をオープンウェイトモデルとして公開し、研究者や開発者が自由に活用・改善できるようにした。これは商用クローズドモデル(GPT、Claude、Gemini)と比較して、透明性とアクセシビリティの面で大きな差別化要因となる。
AIエコシステムへの影響
Llama 4の登場は、マルチモーダルAIの民主化を意味する。以前はOpenAI、Google、Anthropicなど大手テック企業のみが提供していたマルチモーダル能力が、今では誰でも使用・カスタマイズできるようになった。
MoEアーキテクチャの導入は効率性の面でも重要だ。必要なエキスパートのみを活性化することで計算コストを削減しながら、性能は維持できる。
Related Articles
MetaがLlamaモデルの派生物を配布していたHereticプロジェクトに法的通知を送りました。Hereticはガリレオを引用する皮肉な声明と共にファイルを削除し、ドイツのCodebergにミラーを設置しました。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。