Компания Hume AI представила новую модель преобразования текста в речь под названием «Octave», которая призвана изменить подход к созданию синтетических голосов. В отличие от традиционных систем, сосредоточенных на простом преобразовании текста в речь, «Octave» способна понимать контекст и эмоциональные оттенки, что позволяет создавать более естественное звучание.
Today, we’re releasing Octave: the first LLM built for text-to-speech.
— Hume (@hume_ai) February 26, 2025
🎨Design any voice with a prompt
🎬 Give acting instructions to control emotion and delivery (sarcasm, whispering, etc.)
🛠️Produce long-form content on our Creator Studio
Unlike traditional TTS that just… pic.twitter.com/Fag70tJrod
Особенностью модели является её способность создавать динамические голосовые выходы, адаптированные к конкретным ситуациям. Это делает «Octave» идеальной для применения в виртуальных ассистентах, инструментах доступности и творческом контенте. Кроме того, пользователи могут настраивать голоса и личности, тонко подбирая эмоциональную окраску речи.
Уникальность «Octave» заключается в фокусе на эмоциональном интеллекте в машинном обучении. Используя передовые методы обработки естественного языка и синтеза речи, модель стремится уменьшить разрыв между механическими голосами и настоящим человеческим общением. Это может иметь значительное влияние на различные отрасли — от обслуживания клиентов до индустрии развлечений.
Официальный выпуск «Octave» запланирован на 26 февраля 2025 года. Обозреватели уже высказывают мнение, что эта модель может установить новые стандарты для систем голосового ИИ, сочетая техническое совершенство с практической универсальностью.