r/MachineLearning에서 한 독립 ML 연구자의 사연이 큰 공감을 얻고 있습니다. 제한된 자원으로 multimodal learning 개선 방법을 연구해 논문을 제출했지만, 대형 모델과의 비교 부재를 이유로 거절됐다는 내용입니다. 현대 ML 연구가 엔지니어링 경쟁으로 전락하고 있다는 비판이 쏟아지고 있습니다.
#multimodal
RSS Feedr/LocalLLaMA의 고득점 스레드는 Hugging Face에 공개된 Qwen3.5-397B-A17B를 빠르게 확산시켰고, 모델 카드의 397B/17B 구조와 최대 약 1M 토큰 확장 컨텍스트가 핵심 논점으로 부상했다.
r/LocalLLaMA의 Qwen3.5 릴리스 글은 점수 123, 댓글 13으로 빠르게 확산되며 오픈 웨이트 대형 모델 수요를 다시 확인시켰습니다. 링크된 모델 카드에는 397B total, 17B activated, 262,144 native context 등 구체 스펙이 공개됐습니다.
Meta가 최초의 오픈 웨이트 네이티브 멀티모달 모델 Llama 4 Scout와 Maverick을 공개했다. 업계 최장 1천만 토큰 컨텍스트와 MoE 아키텍처로 GPT-4o, Gemini 2.0 Flash를 능가한다.
불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.
Alibaba Qwen 팀이 7B 파라미터 통합 이미지 생성·편집 모델 Qwen-Image-2.0을 발표했다. 20B였던 v1 대비 크기를 대폭 줄이면서도 2K 해상도, 실제 텍스트 렌더링, 멀티 패널 만화 생성 등 향상된 기능을 제공한다.
Meta가 첫 MoE 아키텍처 기반 오픈소스 모델 Llama 4 Scout·Maverick와 2조 파라미터 Behemoth를 공개했다.
Meta가 최초의 오픈 웨이트 네이티브 멀티모달 모델인 Llama 4 Scout와 Maverick을 공개했습니다. MoE 아키텍처를 채택했으며 GPT-4.5를 능가하는 성능을 자랑합니다.
중국 Moonshot AI가 1조 개 파라미터 MoE 아키텍처 기반 오픈소스 멀티모달 모델 Kimi K2.5를 출시하고, 최대 100개 에이전트를 동시 조율하는 Agent Swarm 기술을 공개했다.