Qwen-Image-2.0: 7B 통합 모델로 생성과 편집을 동시에
Original: Qwen-Image-2.0 is out - 7B unified gen+edit model with native 2K and actual text rendering View original →
생성과 편집의 통합
Qwen 팀이 Qwen-Image-2.0을 공개했습니다. 이전처럼 생성과 편집을 위한 별도 모델이 필요하지 않습니다. 7B 파라미터 하나로 두 작업을 모두 처리할 수 있습니다.
주요 특징
- 네이티브 2K 해상도 (2048×2048) - 피부, 직물, 건축물 등의 텍스처가 진짜처럼 사실적
- 실제 텍스트 렌더링 - 최대 1K 토큰 프롬프트에서 텍스트 생성. 포스터, 인포그래픽, PPT 슬라이드, 중국 서예까지 지원. 모든 diffusion 모델의 고질적 문제를 진지하게 해결
- 통합 생성 및 편집 - 동일 모델에서 생성하고 편집. 텍스트 오버레이 추가, 이미지 합성, 스타일 변경 등 파이프라인 전환 없음
- 멀티패널 만화 (4×6) - 일관된 캐릭터와 정렬된 말풍선. 7B 모델치고는 놀라운 기능
성능 개선
v1의 20B에서 7B로 축소되어 추론 속도가 훨씬 빨라졌습니다. 현재 API는 Alibaba Cloud에서 초대제로 운영 중이며, Qwen Chat에서 무료 데모를 사용할 수 있습니다.
중국 AI 랩의 조용한 약진
Reddit 커뮤니티는 "중국 연구소들이 모두가 LLM 경쟁에 집중하는 동안 조용히 강력한 비주얼 모델을 계속 출시하고 있다"고 평가했습니다.
특히 텍스트 렌더링 문제는 Stable Diffusion, DALL-E, Midjourney 등 거의 모든 이미지 생성 모델의 고질적인 약점이었습니다. Qwen-Image-2.0이 이를 어느 정도 해결한 것은 이미지 생성 분야에 의미 있는 진전입니다.
Related Articles
Text rendering is still a weak spot for image models, so Qwen’s latest release matters because it pairs prompt control with a top-10 benchmark. The team tied the launch to a No. 9 global Text-to-Image result and follow-up examples claiming cleaner multilingual typography.
Google Cloud moved Nano Banana 2 and Nano Banana Pro to general availability on May 29. The production story is not just better image generation: 1K and 2K outputs are GA, 4K remains in preview, and Nano Banana 2 now has preview support for video files as prompts.
The Reddit debate focused on whether an AI detector was being used as evidence or as an uncalibrated decision-maker.