xAIは、Grok ImagineのQuality modeで世界知識とprompt understandingが強化されると説明した。複雑なシーン、physics、object relationship、ブランドや地域・文化参照の解釈精度が高まるという。
xAIは、Grok ImagineのQuality modeで世界知識とprompt understandingが強化されると説明した。複雑なシーン、physics、object relationship、ブランドや地域・文化参照の解釈精度が高まるという。
Together AIは2026年4月3日、Alibaba CloudのWan 2.7を自社platformに導入すると発表した。併せて公開された製品記事では、text-to-videoを今すぐ提供し、image-to-video、reference-to-video、video editを同じAPI・認証・課金面に広げていく方針を示している。
Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。
Alibaba CloudはQwen3.6-Plusを1M context window、agentic coding、multimodal reasoningを備えた実運用向けモデルとして打ち出し、HNでも主要なAIトピックとして浮上した。
Google DeepMindはGemini 3 researchを基盤にしたopen model familyであるGemma 4を公開した。E2B・E4Bはedge device向け、26B・31Bはconsumer GPU前提のlocal workflow向けで、function calling、multimodal reasoning、140言語対応を前面に出している。
Metaは2026年3月26日、XでTRIBE v2を公開し、sight、sound、languageに対するhuman brain responseを予測するfoundation modelだと説明した。関連するpaperとdemoは、zero-shot generalization、70,000 voxels規模の予測、paper・code・model weightsの公開を主要なポイントとして示している。
Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveをGemini LiveとGoogle Search Liveへ順次展開し、開発者はGoogle AI Studioから利用を始められると発表した。Googleはこれを自社最高品質のaudio modelと位置づけ、低latency、向上したtonal understanding、ComplexFuncBench Audio 90.8%を打ち出している。
Googleは2026年3月26日、Search LiveをAI Mode対応の全言語・全地域へ拡大した。Voiceとcameraを使うmultimodal searchが200超の国・地域に広がり、Gemini 3.1 Flash Liveの実運用範囲も一気に拡大した。
Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。
OpenAIはMarch 17, 2026にGPT-5.4 miniとnanoを発表した。miniはGPT-5 miniより2x以上高速でcoding、reasoning、multimodal understanding、tool useを改善し、nanoはclassification、data extraction、ranking、より単純なcoding subagents向けの低コスト枠として位置づけられている。
NVIDIA AI Devは2026年3月27日、EdisonのPaperQA3が1億5千万超の研究論文と特許を推論対象にし、LABBench2で強い成績を出したと紹介した。Edisonの記事によれば、このmultimodal systemはfiguresとtablesを読み取り、数百の視覚要素を比較してから回答できるようになった。
Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。