NVIDIA는 2026년 3월 25일 Nemotron Nano 12B v2 VL이 온프레미스 video understanding을 지원하며, 자사 설명 기준으로 MediaPerf benchmark에서 30B급 대안에 가까운 성능을 더 작은 footprint로 낸다고 밝혔다. NVIDIA 모델 카드는 이를 multi-image reasoning, video understanding, visual Q&A, summarization을 위한 상용 가능 멀티모달 모델로 소개한다.
#multimodal
RSS FeedMicrosoft Research가 2026년 3월 4일 15 billion parameter open-weight 모델 Phi-4-reasoning-vision-15B를 공개했다. 회사는 이 모델이 multimodal reasoning, math·science task, computer-use scenario에서 경쟁력 있는 성능을 내면서도 compute cost를 낮추는 데 초점을 맞췄다고 설명했다.
OpenAI는 2026년 3월 17일 X에서 GPT-5.4 mini가 ChatGPT, Codex, API에 출시됐다고 밝혔다. 회사는 mini를 더 빠른 coding과 multimodal 작업용 모델로 소개했고, 함께 공개한 공식 글에서는 API 전용 GPT-5.4 nano도 추가했다.
Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2를 소개했고, Google의 2026-03-10 블로그 글은 이 model이 text, images, video, audio, documents를 하나의 embedding space로 매핑한다고 설명한다. Google은 이 model이 Gemini API와 Vertex AI에서 public preview로 제공되며 multimodal retrieval과 classification을 주요 활용처로 내세운다고 밝혔다.
OpenAI가 2026년 3월 17일 GPT-5.4 mini와 nano를 공개했다. 회사는 두 모델을 coding, tool use, multimodal reasoning, high-volume subagent workload에 맞춘 저지연 소형 모델로 설명했다.
2026년 3월 16일 r/LocalLLaMA의 Mistral Small 4 글은 최신 사용 가능 크롤 기준 606 points와 232 comments를 기록했다. Mistral 모델 카드는 4 active expert, 256k context, 멀티모달 입력, 요청별 reasoning 전환을 갖춘 119B급 MoE를 설명한다.
Google DeepMind는 X에서 Gemini Embedding 2를 Gemini API와 Vertex AI를 통해 preview로 제공한다고 밝혔다. 이 모델은 Gemini architecture 기반의 첫 fully multimodal embedding model로, text·image·video·audio·documents 검색 계층을 하나로 묶는 것을 목표로 한다.
Mistral AI는 2026년 3월 16일 NVIDIA와 frontier open-source AI models를 공동 개발하는 전략적 파트너십에 들어간다고 밝혔다. 이어진 Mistral 공식 글은 Mistral이 NVIDIA Nemotron Coalition의 founding member로 참여하며 large-scale model development와 multimodal capabilities를 제공한다고 설명한다.
Google은 2026년 3월 10일 Gemini Embedding 2를 public preview로 공개했다. 회사는 이 모델이 text, image, 그리고 PDF 같은 mixed multimodal 문서를 하나의 embedding space에서 처리하며, benchmark score를 68.32와 53.3까지 끌어올리면서도 가격과 차원 수는 유지한다고 밝혔다.
r/singularity는 Meituan의 LongCat-Image-Edit-Turbo를 조명했다. 이 모델은 단 8 NFEs로 high-quality 결과를 내세우는 distilled open-source image editor이며, Apache 2.0 Hugging Face 모델과 공개 arXiv 보고서, 그리고 benchmark framing에 대한 커뮤니티 검증이 함께 따라붙고 있다.
Google이 Gemini API와 Vertex AI를 통해 Gemini Embedding 2를 preview로 공개했다. 이 모델은 text, image, video, audio, document를 하나의 embedding space에 넣는 Google의 첫 네이티브 멀티모달 embedding 시스템이다.
Azure는 Phi-4-Reasoning-Vision-15B가 Microsoft Foundry에서 제공된다고 밝혔다. Microsoft는 이 15B model을 document 분석, chart 이해, GUI-grounded agent workflow를 위해 reasoning을 켜고 끌 수 있는 compact multimodal system으로 포지셔닝한다.