OpenAI анонсировала новые модели для голосового синтеза и транскрипции

Новые модели способны передавать эмоции в голосе и лучше распознавать акценты, но не будут открытыми

Опубликовано: 21.03.2025

Компания OpenAI представила новые модели генеративного ИИ для транскрипции и голосового синтеза, которые интегрируются в API. Новые модели, получившие названия gpt-4o-mini-tts и gpt-4o-transcribe, обещают улучшить предыдущие версии за счет более реалистичного звучания и способности к настройке под разные стили речи. Например, разработчики могут задать модели говорить «как безумный ученый» или с «спокойным голосом, как у учителя медитации».

Новые модели трансформируют текст в речь с большей точностью и способны воспроизводить эмоциональные оттенки в голосе. Это может быть полезным для разнообразных применений, например, в сфере поддержки клиентов, где необходимо передать извинения или сочувствие с помощью голоса. По словам представителей OpenAI, это позволяет пользователям и разработчикам контролировать не только то, что сказано, но и то, как это звучит.

Модель gpt-4o-transcribe заменяет предыдущую модель Whisper для транскрипции. Она обучена на разнообразных аудиоданных высокого качества, что позволяет лучше распознавать акценты и разнообразные языковые вариации, даже в сложных условиях. Это значительно уменьшает вероятность ошибок, которые ранее случались с Whisper, таких как вымышленные слова или фразы в транскриптах.

Несмотря на улучшения, OpenAI не планирует открыто публиковать новые модели транскрипции. Представители компании отмечают, что новые модели значительно больше Whisper и не являются оптимальными для локального использования на обычных устройствах. Они подчеркивают важность осторожного подхода к открытому выходу, чтобы обеспечить соответствие моделей определенным потребностям.

Отметки:API OpenAI Генерация голоса

Комментариев нет

OpenAI анонсировала новые модели для голосового синтеза и транскрипции

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

ИИ модели научились эффективно копировать стиль писателей

Pinterest представила новые функции для персонализации досок пользователей

Adobe показала новые ИИ-инструменты для фото и видео

Google впервые показала телевизионную рекламу, созданную ИИ

Google Translate позволяет выбирать между моделями перевода

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!