#multimodal

RSS Feed
LLM sources.twitter Apr 3, 2026 1 min read

Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。

LLM sources.twitter Mar 30, 2026 1 min read

Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveをGemini LiveとGoogle Search Liveへ順次展開し、開発者はGoogle AI Studioから利用を始められると発表した。Googleはこれを自社最高品質のaudio modelと位置づけ、低latency、向上したtonal understanding、ComplexFuncBench Audio 90.8%を打ち出している。

Sciences sources.twitter Mar 27, 2026 1 min read

NVIDIA AI Devは2026年3月27日、EdisonのPaperQA3が1億5千万超の研究論文と特許を推論対象にし、LABBench2で強い成績を出したと紹介した。Edisonの記事によれば、このmultimodal systemはfiguresとtablesを読み取り、数百の視覚要素を比較してから回答できるようになった。

© 2026 Insights. All rights reserved.