댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
구글 딥마인드가 Google I/O 2026에서 텍스트·이미지·오디오·영상 등 모든 입력으로 영상을 생성하는 Gemini Omni를 공개했다. Gemini의 지능과 구글 생성형 미디어 기술의 결합으로, Gemini 앱과 YouTube Shorts를 통해 즉시 이용 가능하다.
ByteDance Research가 이미지·영상 생성과 이해를 단일 모델로 처리하는 Lance(3B 파라미터)를 Apache 2.0 라이선스로 오픈소스 공개했다. 주요 벤치마크에서 7B 이상 모델에 맞먹는 성능을 기록했다.
Google이 Gemini API 파일 검색 도구를 멀티모달로 확장했다. 이미지, 오디오, 동영상을 포함한 다양한 파일 유형에 대한 효율적인 RAG 시스템을 구축할 수 있게 됐다.
IBM Research가 단백질·분자·유전자 데이터를 통합하는 멀티모달 모델 MAMMAL을 발표했다. 11개 생물학 벤치마크 중 9개에서 최고 성능을 달성하며 일부 항목에서 AlphaFold 3을 앞질렀다.
r/singularity 커뮤니티가 Claude Mythos 모델이 이미지 출력을 지원함을 발견했다. Anthropic의 첫 이미지 생성 모델이라는 점에서 주목받고 있다.
LocalLLaMA가 크게 반응한 건 DeepSeek가 점과 박스를 추론 단위로 끌어올렸기 때문이다. 저장소가 곧바로 비공개로 바뀌면서 관심은 더 커졌다.
이번 결과의 핵심은 의사 대체가 아니라 보조 정확도다. Google DeepMind는 AI 공동임상이 현실적인 1차진료 질의 98건 중 97건에서 중대 오류 없이 답했고, 멀티모달 원격진료 시뮬레이션에서는 의사가 여전히 전체적으로 앞섰다고 밝혔다.
멀티모달 에이전트의 병목은 정확도보다 처리량이다. NVIDIA Nemotron 3 Nano Omni는 최대 9배 높은 처리량, 256K 컨텍스트, 6개 리더보드 1위를 앞세워 그 병목을 정면으로 겨냥했다.
멀티모달 에이전트는 아직 비전·오디오·텍스트 모델을 따로 엮느라 비용과 지연을 치른다. NVIDIA는 Nemotron 3 Nano Omni로 30B 파라미터, 256K 문맥, 동일 반응성 기준 영상 추론 시스템 용량 최대 9.2배를 내세웠다.