Компания OpenAI представила новые модели генеративного ИИ для транскрипции и голосового синтеза, которые интегрируются в API. Новые модели, получившие названия gpt-4o-mini-tts и gpt-4o-transcribe, обещают улучшить предыдущие версии за счет более реалистичного звучания и способности к настройке под разные стили речи. Например, разработчики могут задать модели говорить «как безумный ученый» или с «спокойным голосом, как у учителя медитации».
Новые модели трансформируют текст в речь с большей точностью и способны воспроизводить эмоциональные оттенки в голосе. Это может быть полезным для разнообразных применений, например, в сфере поддержки клиентов, где необходимо передать извинения или сочувствие с помощью голоса. По словам представителей OpenAI, это позволяет пользователям и разработчикам контролировать не только то, что сказано, но и то, как это звучит.
Модель gpt-4o-transcribe заменяет предыдущую модель Whisper для транскрипции. Она обучена на разнообразных аудиоданных высокого качества, что позволяет лучше распознавать акценты и разнообразные языковые вариации, даже в сложных условиях. Это значительно уменьшает вероятность ошибок, которые ранее случались с Whisper, таких как вымышленные слова или фразы в транскриптах.
Несмотря на улучшения, OpenAI не планирует открыто публиковать новые модели транскрипции. Представители компании отмечают, что новые модели значительно больше Whisper и не являются оптимальными для локального использования на обычных устройствах. Они подчеркивают важность осторожного подхода к открытому выходу, чтобы обеспечить соответствие моделей определенным потребностям.