Qwen-Image-2.0: 7B 통합 모델로 생성과 편집을 동시에
Original: Qwen-Image-2.0 is out - 7B unified gen+edit model with native 2K and actual text rendering View original →
생성과 편집의 통합
Qwen 팀이 Qwen-Image-2.0을 공개했습니다. 이전처럼 생성과 편집을 위한 별도 모델이 필요하지 않습니다. 7B 파라미터 하나로 두 작업을 모두 처리할 수 있습니다.
주요 특징
- 네이티브 2K 해상도 (2048×2048) - 피부, 직물, 건축물 등의 텍스처가 진짜처럼 사실적
- 실제 텍스트 렌더링 - 최대 1K 토큰 프롬프트에서 텍스트 생성. 포스터, 인포그래픽, PPT 슬라이드, 중국 서예까지 지원. 모든 diffusion 모델의 고질적 문제를 진지하게 해결
- 통합 생성 및 편집 - 동일 모델에서 생성하고 편집. 텍스트 오버레이 추가, 이미지 합성, 스타일 변경 등 파이프라인 전환 없음
- 멀티패널 만화 (4×6) - 일관된 캐릭터와 정렬된 말풍선. 7B 모델치고는 놀라운 기능
성능 개선
v1의 20B에서 7B로 축소되어 추론 속도가 훨씬 빨라졌습니다. 현재 API는 Alibaba Cloud에서 초대제로 운영 중이며, Qwen Chat에서 무료 데모를 사용할 수 있습니다.
중국 AI 랩의 조용한 약진
Reddit 커뮤니티는 "중국 연구소들이 모두가 LLM 경쟁에 집중하는 동안 조용히 강력한 비주얼 모델을 계속 출시하고 있다"고 평가했습니다.
특히 텍스트 렌더링 문제는 Stable Diffusion, DALL-E, Midjourney 등 거의 모든 이미지 생성 모델의 고질적인 약점이었습니다. Qwen-Image-2.0이 이를 어느 정도 해결한 것은 이미지 생성 분야에 의미 있는 진전입니다.
Related Articles
A widely upvoted Reddit post highlighted Google’s new Nano Banana 2 (Gemini 3.1 Flash Image), which combines Pro-level image capabilities with faster generation and broad product/API rollout.
OpenAI announced on X that Codex Security has entered research preview. The company positions it as an application security agent that can detect, validate, and patch complex vulnerabilities with more context and less noise.
OpenAI said on X on March 9 that it plans to acquire Promptfoo, an AI security platform, and keep the project open source. The deal strengthens OpenAI Frontier’s agentic testing and evaluation stack.
Comments (0)
No comments yet. Be the first to comment!