Qwen-Image-2.0 공개: 7B 파라미터로 2K 이미지 생성 및 편집 통합
Original: Qwen-Image-2.0 is out - 7B unified gen+edit model with native 2K and actual text rendering View original →
개요
Alibaba의 Qwen 팀이 Qwen-Image-2.0을 출시했다. 현재는 Alibaba Cloud에서 초대 베타 API로만 제공되며 Qwen Chat에서 무료 데모를 사용할 수 있다. 하지만 v1이 출시 한 달 만에 Apache 2.0 라이선스로 오픈웨이트를 공개한 전례를 볼 때, 이번에도 조만간 오픈될 가능성이 높다.
주요 개선 사항
1. 7B 파라미터로 대폭 경량화
v1의 20B에서 7B로 축소되었다. 이는 로컬 구동을 위한 획기적인 개선이다. V1도 20B임에도 ComfyUI에서 인기가 많았는데, 더 적은 리소스로 더 많은 기능을 제공하는 7B 버전은 로컬 커뮤니티에게 정확히 필요한 것이다.
2. 통합 생성 + 편집 파이프라인
하나의 모델에서 이미지 생성과 편집을 모두 처리한다. 별도의 모델이 필요 없다.
3. 네이티브 2K 해상도
2048×2048 해상도를 기본 지원하며, 현실적인 텍스처를 제공한다.
4. 텍스트 렌더링
최대 1K 토큰의 프롬프트로부터 텍스트를 렌더링할 수 있다. 인포그래픽, 포스터, 슬라이드, 심지어 중국 서예까지 가능하다. 오픈 랩에서 나온 텍스트-인-이미지 모델 중 아마도 최고 수준이다.
5. 멀티 패널 만화 생성
4×6 멀티 패널 만화를 일관된 캐릭터로 생성할 수 있다.
가용성 및 전망
아직 오픈웨이트는 공개되지 않았지만, Qwen 팀의 과거 행보를 볼 때 낙관적이다. v1은 출시 약 한 달 후 Apache 2.0 라이선스로 가중치가 공개되었다.
7B 크기는 특히 흥미롭다. 소비자 하드웨어에서 매우 실행 가능한 수준이며, 가중치가 공개되면 ComfyUI 같은 로컬 워크플로우 도구에 빠르게 통합될 것으로 예상된다.
기술 커뮤니티 반응
Reddit의 r/LocalLLaMA 커뮤니티에서 이 소식은 466점의 높은 점수를 받으며 큰 관심을 받았다. 커뮤니티 멤버들은 특히 다음에 주목하고 있다:
- 7B 크기로 인한 로컬 구동 가능성
- 텍스트 렌더링 품질(기존 오픈 모델의 약점)
- 통합 파이프라인의 편의성
- 오픈웨이트 공개 여부
의미와 활용
Qwen-Image-2.0은 오픈소스 이미지 생성 분야의 중요한 진전을 대표한다. 특히 텍스트 렌더링은 지금까지 오픈 모델의 주요 약점 중 하나였는데, 이를 해결한 것으로 보인다.
가중치가 공개되면 다음과 같은 용도로 활용될 수 있다:
- 마케팅 자료 및 인포그래픽 자동 생성
- 슬라이드 및 프레젠테이션 디자인
- 멀티 패널 만화 및 스토리보드 제작
- 로컬 환경에서의 프라이버시 중심 이미지 생성
현재는 Qwen Chat에서 데모를 테스트할 수 있으며, 오픈웨이트 공개를 기다리는 것이 권장된다.
Related Articles
ByteDance Research가 이미지·영상 생성과 이해를 단일 모델로 처리하는 Lance(3B 파라미터)를 Apache 2.0 라이선스로 오픈소스 공개했다. 주요 벤치마크에서 7B 이상 모델에 맞먹는 성능을 기록했다.
불과 0.9B 파라미터로 복잡한 문서 레이아웃, 표, 코드, 수식을 처리하는 오픈소스 OCR 시스템 GLM-OCR이 공개되었습니다. OmniDocBench V1.5에서 94.62점으로 1위를 차지하며 실용성과 효율성을 입증했습니다.
Qwen 팀이 생성과 편집을 하나의 파이프라인으로 통합한 7B 이미지 모델을 공개했습니다. 네이티브 2K 해상도, 실제 텍스트 렌더링, 멀티패널 만화 생성 등을 지원하며, 20B였던 v1 대비 크기를 대폭 줄여 추론 속도를 크게 개선했습니다.