#multimodal

AI Hacker News 1d ago 1 min read

FLUX 3, 영상·오디오·액션을 한 모델에 묶은 이유

시각 생성 모델 논의가 이미지 품질 비교를 넘어, 영상·소리·행동 예측을 같은 backbone에 넣을 수 있느냐로 옮겨갔다.

LLM X/Twitter Jul 17, 2026 1 min read

Thinking Machines, Inkling 가중치 공개로 멀티모달 추론 경쟁 가속

멀티모달 추론 모델의 공개 경쟁이 한 단계 더 치열해졌다. Thinking Machines는 Inkling 전체 가중치를 공개하고, 64K와 256K 컨텍스트 옵션 및 Tinker fine-tuning 경로를 함께 열었다.

#thinking-machines #inkling #open-weights

LLM Hacker News Jul 16, 2026 1 min read

Inkling 공개, open-weight 경쟁의 새 기준은 fine-tuning

HN의 관심은 benchmark 1등보다 조합에 모였다. Thinking Machines Lab의 Inkling은 multimodal MoE, 조절 가능한 reasoning effort, Tinker fine-tuning을 한 묶음으로 내세우며 open-weight 모델의 쓰임새를 다시 묻는다.

#thinking-machines #open-weights #multimodal

LLM X/Twitter Jun 13, 2026 1 min read

MiniMax M3 가중치 공개, 428B 규모·23B 활성 파라미터로 Hugging Face 입성

장문·멀티모달·코딩 성능을 앞세운 MiniMax M3가 오픈 웨이트 배포 단계에 들어갔다. 모델 카드는 약 428B 파라미터와 23B 활성 파라미터, 1M 컨텍스트를 명시한다.

#minimax #open-weights #multimodal

LLM Hacker News Jun 4, 2026 1 min read

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.

#gemma #multimodal #open-weights

LLM X/Twitter Jun 4, 2026 1 min read

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.

#gemma #google #open-models

LLM May 29, 2026 1 min read

Gemini 3.5 Flash GA, Google Search까지 agent 표면으로 확장

Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.

#google #gemini #agents

AI X/Twitter May 21, 2026 1 min read

Google, 모든 입력에서 영상 생성하는 Gemini Omni 공개

구글 딥마인드가 Google I/O 2026에서 텍스트·이미지·오디오·영상 등 모든 입력으로 영상을 생성하는 Gemini Omni를 공개했다. Gemini의 지능과 구글 생성형 미디어 기술의 결합으로, Gemini 앱과 YouTube Shorts를 통해 즉시 이용 가능하다.

#google #gemini #video-generation

AI Reddit May 20, 2026 1 min read

ByteDance, 3B 통합 멀티모달 모델 'Lance' 오픈소스 공개

ByteDance Research가 이미지·영상 생성과 이해를 단일 모델로 처리하는 Lance(3B 파라미터)를 Apache 2.0 라이선스로 오픈소스 공개했다. 주요 벤치마크에서 7B 이상 모델에 맞먹는 성능을 기록했다.

#bytedance #lance #multimodal

AI Hacker News May 10, 2026 1 min read

Gemini API 파일 검색, 멀티모달 RAG 지원으로 확장

Google이 Gemini API 파일 검색 도구를 멀티모달로 확장했다. 이미지, 오디오, 동영상을 포함한 다양한 파일 유형에 대한 효율적인 RAG 시스템을 구축할 수 있게 됐다.

#google #gemini #rag

Sciences Reddit May 4, 2026 1 min read

IBM MAMMAL, AlphaFold 3 넘어 9개 생물학 벤치마크 석권

IBM Research가 단백질·분자·유전자 데이터를 통합하는 멀티모달 모델 MAMMAL을 발표했다. 11개 생물학 벤치마크 중 9개에서 최고 성능을 달성하며 일부 항목에서 AlphaFold 3을 앞질렀다.

#ibm #mammal #drug-discovery

AI Reddit May 2, 2026 1 min read

커뮤니티 발견: Claude Mythos가 이미지 출력 지원 — Anthropic 첫 이미지 생성 모델

r/singularity 커뮤니티가 Claude Mythos 모델이 이미지 출력을 지원함을 발견했다. Anthropic의 첫 이미지 생성 모델이라는 점에서 주목받고 있다.

#anthropic #claude #image-generation