Alibaba представила новые возможности для редактирования изображений в своей модели Qwen-Image-Edit, которая работает на базе 20-миллиардной модели Qwen-Image. Система сочетает две стратегии обработки: «Qwen2.5-VL» отвечает за смысловой контроль, а Variational Autoencoder изменяет внешний вид изображения. Пользователи могут вносить как простые корректировки, так и выполнять сложные смысловые изменения, при этом основной объект остается узнаваемым.

Qwen-Image-Edit позволяет изменять отдельные участки фото, не влияя на другие части, или полностью изменять картинку, сохраняя главный объект. Например, можно создать новые версии маскота Capybara для использования в стикерах или мессенджерах, а также изменять ракурсы предметов, людей или животных на 90 или 180 градусов. Инструмент поддерживает изменение стиля, например, преобразование портретов в стиле Studio Ghibli.
Редактор также позволяет добавлять надписи с реалистичными тенями, изменять цвета букв, удалять лишние нюансы на изображении, редактировать фон или одежду.
Одно из главных преимуществ Qwen-Image-Edit — возможность редактирования текста на изображениях на китайском и английском языках. Пользователи могут добавлять, удалять или изменять текст без потери шрифта, размера и стиля. Для этого нужно выделить необходимую область, после чего модель обновляет отмеченные области. Если результат не идеален, можно постепенно уточнять изменения, пока не будет достигнут желаемый вид.
Qwen-Image-Edit уже доступна через функцию «Image Editing» в Qwen Chat, а также на Github, Hugging Face и Modelscope. Alibaba заявляет о ведущих результатах модели на открытых тестах редактирования изображений, но не опубликовала точные показатели.