Google이 Gemini API와 Vertex AI를 통해 Gemini Embedding 2를 preview로 공개했다. 이 모델은 text, image, video, audio, document를 하나의 embedding space에 넣는 Google의 첫 네이티브 멀티모달 embedding 시스템이다.
#multimodal
RSS FeedGoogle은 March 3, 2026 Gemini 3.1 Flash-Lite를 공개하며 가장 빠르고 비용 효율적인 Gemini 3 계열 모델이라고 밝혔다. 이 모델은 Google AI Studio와 Vertex AI에서 preview로 제공되며, 가격은 $0.25/1M input tokens와 $1.50/1M output tokens다.
Azure는 Phi-4-Reasoning-Vision-15B가 Microsoft Foundry에서 제공된다고 밝혔다. Microsoft는 이 15B model을 document 분석, chart 이해, GUI-grounded agent workflow를 위해 reasoning을 켜고 끌 수 있는 compact multimodal system으로 포지셔닝한다.
Google이 NotebookLM의 Cinematic Video Overviews를 Google AI Ultra 구독자에게 영어로 순차 배포한다고 밝혔다. 공식 블로그에 따르면 Gemini 3, Nano Banana Pro, Veo 3를 조합해 기존 narrated slides보다 몰입감 있는 맞춤형 영상을 만든다.
Mistral이 Apache 2.0 기반의 멀티모달 오픈 모델군 Mistral 3를 발표했다. 14B, 8B, 3B dense 모델과 41B active, 675B total 규모의 Mistral Large 3를 함께 제시했다.
Google AI가 Gemini 3.1 Flash-Lite의 고용량 이미지 분류 및 비즈니스 자동화 활용 사례를 제시했다. 모델은 Gemini API, Google AI Studio, Vertex AI preview 경로로 확장되고 있다.
Google이 X를 통해 Nano Banana 2를 공개하며 자사 최고 수준의 이미지 생성·편집 모델이라고 소개했다. 발표에 따르면 이 모델은 Gemini 앱, Search, 개발자 및 크리에이티브 도구 전반에 당일 롤아웃된다.
2026년 3월 4일 LocalLLaMA 고득점 글에서 Microsoft의 open-weight multimodal 모델 Phi-4-Reasoning-Vision-15B가 공유됐고, 로컬 배포 관점의 토론이 이어졌다.
구글이 새로운 AI 이미지 생성 모델 Nano Banana 2를 공개했다. 고급 세계 지식과 프로덕션 수준의 성능을 Flash 속도로 결합한 이 모델은 기업용 AI 이미지 생성의 새 기준을 제시한다.
구글이 새로운 AI 이미지 생성 모델 Nano Banana 2를 공개했다. 고급 세계 지식과 프로덕션 수준의 성능을 Flash 속도로 결합한 이 모델은 기업용 AI 이미지 생성의 새 기준을 제시한다.
Google DeepMind는 2026년 2월 26일 X에서 Nano Banana 2가 지시문을 데이터 중심 인포그래픽과 교육용 다이어그램으로 변환할 수 있다고 밝혔다. 게시물은 약 3만 조회를 기록했다.
r/singularity에서 높은 반응을 얻은 Nano Banana 2는 Gemini 3.1 Flash Image 기반으로, Pro 수준 기능과 고속 생성·편집을 결합해 제품/API 전반으로 확장되고 있다.