Компания Alibaba представила многомодальную ИИ Qwen VLo, которая анализирует, создает и редактирует изображения на основе текстовых запросов. Qwen VLo формирует изображения постепенно, шаг за шагом, слева направо и сверху вниз, что позволяет лучше контролировать результат и особенно полезно при длинных текстовых описаниях.
Модель понимает сложные инструкции на естественном языке. Пользователи могут изменять фон, добавлять новые объекты, изменять стиль изображения и объединять несколько изображений в одно.
Qwen VLo поддерживает как художественные, так и технические изменения. Она создает сегментационные карты, проводит определение контуров и формирует карты глубины с цветными наложениями. Модель также распознает части изображения и оценивает глубину сцены.
Система работает с различными разрешениями и пропорциями изображений, включая поддержку экстремальных форматов, как 4:1 или 1:3, хотя эта возможность еще не активирована. Запросы она обрабатывает на китайском и английском языках.
В настоящее время Qwen VLo доступна для ознакомления в Qwen Chat. Компания сообщает об отдельных ошибках генерации, несоответствиях источнику и трудностях с выполнением детализированных инструкций, но планирует улучшить стабильность и надежность модели.