#multimodal

AI sources.twitter Apr 5, 2026 1 min read

xAI、Grok ImagineのQuality modeが世界知識をどう強化するか説明

xAIは、Grok ImagineのQuality modeで世界知識とprompt understandingが強化されると説明した。複雑なシーン、physics、object relationship、ブランドや地域・文化参照の解釈精度が高まるという。

#xai #grok-imagine #image-generation

AI sources.twitter Apr 4, 2026 1 min read

Together AI、Wan 2.7のvideo生成・継続・編集workflowを単一APIに集約

Together AIは2026年4月3日、Alibaba CloudのWan 2.7を自社platformに導入すると発表した。併せて公開された製品記事では、text-to-videoを今すぐ提供し、image-to-video、reference-to-video、video editを同じAPI・認証・課金面に広げていく方針を示している。

#together-ai #wan-2-7 #video-generation

LLM sources.twitter Apr 3, 2026 1 min read

Google AI、リアルタイム voice・vision agent向け Gemini 3.1 Flash Live を投入

Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。

#google-ai #gemini #live-api

LLM Hacker News Apr 3, 2026 1 min read

HNで注目を集めたQwen3.6-Plus、実運用エージェント競争へ

Alibaba CloudはQwen3.6-Plusを1M context window、agentic coding、multimodal reasoningを備えた実運用向けモデルとして打ち出し、HNでも主要なAIトピックとして浮上した。

#qwen #agents #coding

LLM Hacker News Apr 2, 2026 1 min read

Google DeepMind、Gemma 4を公開　agentic workflowとmultimodal local AIを強化

Google DeepMindはGemini 3 researchを基盤にしたopen model familyであるGemma 4を公開した。E2B・E4Bはedge device向け、26B・31Bはconsumer GPU前提のlocal workflow向けで、function calling、multimodal reasoning、140言語対応を前面に出している。

#gemma-4 #google-deepmind #open-models

Sciences sources.twitter Mar 31, 2026 1 min read

Meta、in-silico neuroscience向け tri-modal foundation model「TRIBE v2」を公開

Metaは2026年3月26日、XでTRIBE v2を公開し、sight、sound、languageに対するhuman brain responseを予測するfoundation modelだと説明した。関連するpaperとdemoは、zero-shot generalization、70,000 voxels規模の予測、paper・code・model weightsの公開を主要なポイントとして示している。

#meta #neuroscience #fmri

LLM sources.twitter Mar 30, 2026 1 min read

Google、Gemini 3.1 Flash Liveを拡大展開 Gemini Live・Search Live・AI Studioに投入

Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveをGemini LiveとGoogle Search Liveへ順次展開し、開発者はGoogle AI Studioから利用を始められると発表した。Googleはこれを自社最高品質のaudio modelと位置づけ、低latency、向上したtonal understanding、ComplexFuncBench Audio 90.8%を打ち出している。

#google #gemini #voice-ai

AI Mar 30, 2026 1 min read

Google、Search Liveを200超の国・地域へ拡大しAI Modeのvoice searchを広域展開

Googleは2026年3月26日、Search LiveをAI Mode対応の全言語・全地域へ拡大した。Voiceとcameraを使うmultimodal searchが200超の国・地域に広がり、Gemini 3.1 Flash Liveの実運用範囲も一気に拡大した。

#google #search-live #ai-mode

LLM Mar 29, 2026 1 min read

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表

Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。

#llm #multimodal #reasoning

LLM Mar 28, 2026 1 min read

OpenAI、より高速な coding・subagent向けにGPT-5.4 miniとnanoを投入

OpenAIはMarch 17, 2026にGPT-5.4 miniとnanoを発表した。miniはGPT-5 miniより2x以上高速でcoding、reasoning、multimodal understanding、tool useを改善し、nanoはclassification、data extraction、ranking、より単純なcoding subagents向けの低コスト枠として位置づけられている。

#openai #gpt-5.4 #coding

Sciences sources.twitter Mar 27, 2026 1 min read

PaperQA3、150M超の論文・特許を読むEdisonの科学deep-research agentへ拡張

NVIDIA AI Devは2026年3月27日、EdisonのPaperQA3が1億5千万超の研究論文と特許を推論対象にし、LABBench2で強い成績を出したと紹介した。Edisonの記事によれば、このmultimodal systemはfiguresとtablesを読み取り、数百の視覚要素を比較してから回答できるようになった。

#edison #paperqa3 #deep-research

LLM sources.twitter Mar 26, 2026 1 min read

Google DeepMind、低遅延voice・vision agent向けGemini 3.1 Flash Liveを公開

Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。

#google-deepmind #gemini #live-api