Команда Qwen из Alibaba Cloud представила две новые ИИ-модели, которые позволяют создавать или копировать голоса с помощью текстовых команд. Обе модели могут генерировать речь на основе текста и воспроизводить голос, похожий на оригинальный, после прослушивания всего трех секунд аудио.
Пользователи могут вводить текст, а система преобразует его в речь с заданными характеристиками. Для клонирования голоса достаточно короткого аудиофрагмента, что делает процесс быстрым и удобным. Модели поддерживают различные языки, включая английский и китайский, и работают с интонацией и стилем речи.
Разработчики сообщили, что эти ИИ-модели можно использовать для создания персонализированных голосовых ассистентов, озвучивания видео или аудиокниг, а также для учебных и развлекательных приложений. Сервис рассчитан на широкую аудиторию, включая разработчиков и обычных пользователей.
Alibaba Cloud планирует в дальнейшем совершенствовать эти инструменты и расширять их функции, ориентируясь на безопасность и защиту данных пользователей. Новые возможности уже доступны для тестирования через официальные каналы компании.

