Meta Llama 4、ネイティブマルチモーダルAI時代を開幕... 1000万トークンコンテキスト対応
ネイティブマルチモーダルの革新
MetaがLlama 4シリーズを発表し、AI業界に新たなマイルストーンを築いた。Llama 4 ScoutとLlama 4 Maverickは、初のオープンウェイト・ネイティブマルチモーダルモデルで、テキスト・画像・動画を最初から統合処理するように設計されている。
Llama 4 Maverick: 170億パラメータの強者
Llama 4 Maverickは、170億のアクティブパラメータと128のエキスパートを持つMixture-of-Experts(MoE)アーキテクチャを使用するMeta初のモデルだ。
広範なベンチマークでGPT-4oとGemini 2.0 Flashを上回り、同クラス最高のマルチモーダルモデルであることを証明した。
Llama 4 Scout: 1000万トークンコンテキスト
Llama 4 Scoutは、Llama 3の128Kトークンから業界最長の1000万トークンへとコンテキスト長を劇的に拡張した。これは数百ページの文書、数時間分の動画、または大規模コードベースを単一のコンテキストで処理できることを意味する。
オープンウェイト戦略の意義
MetaはLlama 4をオープンウェイトモデルとして公開し、研究者や開発者が自由に活用・改善できるようにした。これは商用クローズドモデル(GPT、Claude、Gemini)と比較して、透明性とアクセシビリティの面で大きな差別化要因となる。
AIエコシステムへの影響
Llama 4の登場は、マルチモーダルAIの民主化を意味する。以前はOpenAI、Google、Anthropicなど大手テック企業のみが提供していたマルチモーダル能力が、今では誰でも使用・カスタマイズできるようになった。
MoEアーキテクチャの導入は効率性の面でも重要だ。必要なエキスパートのみを活性化することで計算コストを削減しながら、性能は維持できる。
Related Articles
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Google AIはGemini 3.1 Flash-Liteの実運用例として、大量画像の仕分けや業務自動化シナリオを紹介した。Gemini API、Google AI Studio、Vertex AIのpreview導線も同時に示された。
AzureはPhi-4-Reasoning-Vision-15BがMicrosoft Foundryで利用可能になったと発表した。Microsoftはこの15B modelを、document解析、chart理解、GUI-grounded agent workflow向けにreasoningを切り替えられるcompactなmultimodal systemとして位置付けている。
Comments (0)
No comments yet. Be the first to comment!