Компания ElevenLabs, известная своими достижениями в области генерации аудио, объявила о запуске своей первой самостоятельной модели преобразования речи в текст под названием «Scribe». Эта модель поддерживает более девяноста девяти языков и предлагает точность распознавания для более чем двадцати пяти языков, где уровень ошибок составляет менее пяти процентов. Среди таких языков — английский, французский, немецкий, испанский и многие другие.
Introducing Scribe — the most accurate Speech to Text model.
— ElevenLabs (@elevenlabsio) February 26, 2025
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL
«Scribe» способна работать с реальными аудиосценариями и обеспечивает такие функции, как диаризация говорящих, пометка времени на уровне слов для точных субтитров и автоматическая маркировка звуковых событий. Модель доступна для разработчиков через API и панель управления ElevenLabs, где пользователи могут загружать аудио или видеофайлы.
На момент запуска «Scribe» работает только с предварительно записанными аудиоформатами, но компания планирует вскоре выпустить версию с низкой задержкой для работы в реальном времени. Это открывает дополнительные возможности для использования модели, в частности для создания субтитров для видео или контента, который требует точного распознавания речи.
Цена на услугу транскрипции составляет сорок центов за час аудио, что является конкурентоспособным на рынке. Хотя некоторые конкуренты предлагают более низкие цены, «Scribe» обеспечивает высокую точность и дополнительные функции.