Hume.ai представила EVI 3 — третье поколение речевой модели для персонализированного голосового ИИ. Модель сочетает распознавание речи, обработку запросов и синтез голоса, обеспечивая ответы примерно за триста миллисекунд. EVI 3 позволяет создавать новые голоса на основе текстовых описаний, используя комбинации из более чем ста тысяч образцов записей, а также настраивать интонацию, темп и эмоциональный стиль с помощью обучения с подкреплением.
Благодаря смешанной системе текстово-голосовых токенов модель может интегрировать внешние инструменты непосредственно во время ответа. Среди доступных голосов — как стандартные варианты с различными характерами и описаниями, так и возможность создания собственного голоса с помощью простого текстового запроса. По результатам слепого тестирования с более чем тысячей семьюстами участниками EVI 3 показала лучшие показатели по эмпатии, выразительности, естественности, обработке прерываний, скорости и качеству звука по сравнению с такими моделями, как GPT-4o, Gemini и Sesame.
Демонстрационная версия EVI 3 уже доступна через веб-интерфейс и приложение для iOS, а доступ к API появится в ближайшие недели. Модель ориентирована на использование в сферах клиентской поддержки, коучинга для здоровья, играх и других сферах, где важна качество голосового взаимодействия. Стоимость пока не объявлена, но предыдущая версия стоила семь центов за минуту использования.
В настоящее время EVI 3 специализируется на английском языке, однако компания планирует добавить поддержку французского, немецкого, итальянского и испанского к полному релизу.