#multimodal

AI Reddit Feb 23, 2026 1 min read

자원 부족한 독립 연구자의 ML 논문, 주요 학회에서 거절당하다

r/MachineLearning에서 한 독립 ML 연구자의 사연이 큰 공감을 얻고 있습니다. 제한된 자원으로 multimodal learning 개선 방법을 연구해 논문을 제출했지만, 대형 모델과의 비교 부재를 이유로 거절됐다는 내용입니다. 현대 ML 연구가 엔지니어링 경쟁으로 전락하고 있다는 비판이 쏟아지고 있습니다.

#ml-research #multimodal #academic

LLM Reddit Feb 17, 2026 1 min read

Reddit 반응: Qwen3.5-397B-A17B 공개에 LocalLLaMA 커뮤니티 즉시 집중

r/LocalLLaMA의 고득점 스레드는 Hugging Face에 공개된 Qwen3.5-397B-A17B를 빠르게 확산시켰고, 모델 카드의 397B/17B 구조와 최대 약 1M 토큰 확장 컨텍스트가 핵심 논점으로 부상했다.

#qwen3.5 #open-weights #multimodal

LLM Reddit Feb 17, 2026 1 min read

Reddit 화제: Qwen3.5 오픈 웨이트 공개, 397B-A17B 모델 카드 세부 공개

r/LocalLLaMA의 Qwen3.5 릴리스 글은 점수 123, 댓글 13으로 빠르게 확산되며 오픈 웨이트 대형 모델 수요를 다시 확인시켰습니다. 링크된 모델 카드에는 397B total, 17B activated, 262,144 native context 등 구체 스펙이 공개됐습니다.

#qwen #open-weight #multimodal

LLM Feb 12, 2026 1 min read

Meta Llama 4, 네이티브 멀티모달 AI 시대 개막... 1천만 토큰 컨텍스트 지원

Meta가 최초의 오픈 웨이트 네이티브 멀티모달 모델 Llama 4 Scout와 Maverick을 공개했다. 업계 최장 1천만 토큰 컨텍스트와 MoE 아키텍처로 GPT-4o, Gemini 2.0 Flash를 능가한다.

#meta #llama-4 #multimodal

AI Hacker News Feb 12, 2026 1 min read

GLM-OCR: 복잡한 문서 이해를 위한 초경량 멀티모달 OCR 모델

불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.

#ocr #multimodal #document-ai

AI Reddit Feb 11, 2026 1 min read

Qwen-Image-2.0 공개: 7B 파라미터로 2K 이미지 생성 및 편집 통합

Alibaba Qwen 팀이 7B 파라미터 통합 이미지 생성·편집 모델 Qwen-Image-2.0을 발표했다. 20B였던 v1 대비 크기를 대폭 줄이면서도 2K 해상도, 실제 텍스트 렌더링, 멀티 패널 만화 생성 등 향상된 기능을 제공한다.

#image-generation #qwen #multimodal

LLM Feb 10, 2026 1 min read

Meta, 네이티브 멀티모달 Llama 4 오픈소스 공개

Meta가 첫 MoE 아키텍처 기반 오픈소스 모델 Llama 4 Scout·Maverick와 2조 파라미터 Behemoth를 공개했다.

#meta #llama #open-source

LLM Feb 9, 2026 3 min read

Meta, 네이티브 멀티모달 Llama 4 Scout·Maverick 오픈소스 공개

Meta가 최초의 오픈 웨이트 네이티브 멀티모달 모델인 Llama 4 Scout와 Maverick을 공개했습니다. MoE 아키텍처를 채택했으며 GPT-4.5를 능가하는 성능을 자랑합니다.

#meta #llama-4 #multimodal

LLM Feb 8, 2026 1 min read

Moonshot AI, 1조 파라미터 오픈소스 모델 Kimi K2.5 공개

중국 Moonshot AI가 1조 개 파라미터 MoE 아키텍처 기반 오픈소스 멀티모달 모델 Kimi K2.5를 출시하고, 최대 100개 에이전트를 동시 조율하는 Agent Swarm 기술을 공개했다.

#moonshot-ai #open-source #multimodal