Платформа для записи и редактирования подкастов Podcastle присоединилась к другим компаниям в сфере генеративного ИИ, выпустив собственную модель преобразования текста в речь под названием Asyncflow v1.0. Для разработчиков также будет доступен API, который позволит интегрировать эту модель непосредственно в свои приложения. Благодаря новой модели, компания может предложить более четырёхсот пятидесяти ИИ-голосов, которые могут озвучивать текст.
Podcastle присоединилась к ряду стартапов, таких как ElevenLabs, Speechify и WellSaid, которые разработали технологии для преобразования текста в голосовой клип, озвученный ИИ. Эта технология имеет широкое применение в маркетинге, рекламе, создании контента, образовании и корпоративном обучении.
Основатель Podcastle, Арто Ерицяян, отметил, что компания всегда стремилась создать модель преобразования текста в речь, но затраты на обучение и требования к данным были слишком высокими. Благодаря развитию больших языковых моделей, им удалось достичь значительного прогресса в прошлом году, что позволило создать качественную голосовую модель без необходимости в большом количестве данных.
Podcastle также совершенствует свою функцию клонирования голоса, которая теперь позволяет быстрее тренировать модель. Ранее процесс тренировки требовал чтения около семидесяти различных предложений, а теперь достаточно лишь несколько секунд записи, чтобы создать клон вашего голоса. Этот процесс использует технологию Magic Dust AI, которая была выпущена в прошлом году для улучшения качества аудиозаписей. Компания отметила, что со временем планирует улучшить эту функцию.