Компания Resemble AI презентовала Chatterbox — бесплатную открытую ИИ-модель для клонирования голоса, которая работает локально на компьютере и позволяет управлять эмоциональным тоном, в частности выбирать «драматический» или «монотонный» стиль. Для создания копии голоса достаточно нескольких секунд аудио. Ответ система генерирует менее чем за 200 миллисекунд.
Chatterbox поддерживает операционные системы Windows, Mac и Linux. Для стабильной работы модели требуется 5–6 гигабайт видеопамяти. Каждый сгенерированный голос содержит едва заметный водяной знак «PerTh», который позволяет идентифицировать искусственное происхождение речи.
По заявлению Resemble AI, Chatterbox превзошла ElevenLabs во время слепых тестирований. К сожалению, на данный момент модель работает только с английским языком.
Модель имеет лицензию MIT и ориентирована в первую очередь на разработчиков. Подробнее с работой Chatterbox можно ознакомиться на странице с официальным демо.