Qwen-Image создает изображения с качественным текстом на разных языках

Модель от Alibaba позволяет редактировать фото, изменять стиль, а также точно отображает символы в сложных сценариях

Опубликовано: 09.08.2025

Изображение с сайта qwenlm.github.io.

Alibaba представила Qwen-Image — новую ИИ-модель с 20 миллиардами параметров, которая создает изображения с высококачественным текстом в разнообразных стилях. Разработчики отмечают , что Qwen-Image поддерживает двуязычный текст и легко переключается между языками, а также генерирует текст в различных визуальных контекстах — от уличных сцен до слайдов презентаций.

Qwen-Image создает изображения с качественным текстом на разных языках

Модель позволяет не только создавать новые изображения, но и редактировать их — изменять стиль, добавлять или удалять объекты, а также корректировать позы людей на фото. Qwen-Image выполняет задачи классического компьютерного зрения, например, оценивает глубину изображения или создает новые ракурсы, сохраняя оригинальное содержание.

Архитектура Qwen-Image включает три основных компонента: Qwen2.5-VL для понимания текста и изображений, Variational AutoEncoder для сжатия изображений и Multimodal Diffusion Transformer для создания финального результата. Новая технология MSRoPE обеспечивает точное размещение текста в изображениях, что повышает качество сочетания текста и картинки даже при разных разрешениях.

Команда Alibaba построила обучающий набор данных без использования ИИ-сгенерированного контента, сосредоточившись на фотографиях природы, дизайне, изображениях людей и синтетических примерах. Дополнительные фильтры отсекают изображения низкого качества, а различные подходы к рендерингу текста обеспечивают разнообразие данных для обучения.

В тестах Qwen-Image обошла несколько коммерческих моделей, таких как GPT-Image-1 и Flux.1, особенно в создании и редактировании изображений, а также в точности рендеринга китайских символов. Модель доступна бесплатно на GitHub и Hugging Face, а пользователи могут протестировать её в живой демонстрации .

Комментариев нет

Qwen-Image создает изображения с качественным текстом на разных языках

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Google добавляет персональные настройки в NotebookLM для пользователей

Amazon MGM Studios тестирует AI Studio для кинопроизводства

Claude Opus 4.6 возглавила рейтинг анализа данных ИИ

OpenAI презентовала GPT 5.3 Codex для автоматизации разработки

Seedance 2.0 создает волну видео со знаменитостями онлайн

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!