Mistral предлагает открытую языковую модель Voxtral для распознавания речи

Французская компания Mistral представила Voxtral — открытую языковую модель для распознавания и понимания речи. Она доступна в двух версиях: Voxtral Small 24B для производственных применений и компактная Voxtral 3B для локального или edge-использования. Обе поддерживают окно контекста на 32 тысячи токенов, что позволяет обрабатывать аудиофайлы до 30 минут для транскрипции и до 40 минут для задач понимания.

Модель распознает английский, испанский, французский, португальский, хинди, немецкий, нидерландский и итальянский языки. Она сочетает транскрипцию, ответы на вопросы и суммирование без необходимости в дополнительных языковых или распознавательных модулях. Пользователи могут запускать функции в бэкенде через голосовые команды, так как модель автоматически преобразует запросы в вызовы API.

По результатам тестов Mistral, Voxtral Small превосходит Whisper large-v3, GPT-4o mini Transcribe и Gemini 2.5 Flash в большинстве задач, в частности на англоязычных коротких фрагментах и в многоязычных тестах FLEURS. Модель также показала конкурентные результаты в понимании аудио и переводе речи, а Voxtral Mini Transcribe работает точнее и дешевле, чем OpenAI Whisper.

API Voxtral предлагает цену от 0,001 доллара за минуту, а для корпоративных клиентов доступна приватная установка и тонкая настройка под отраслевые нужды. В ближайших обновлениях появятся сегментация по голосам, разметка эмоций и возраста, а также таймкоды на уровне слов.

Модели уже доступны для загрузки на Hugging Face под лицензией Apache-2.0 и через API. В ближайшие недели Voxtral станет основой голосового режима в Le Chat, что позволит пользователям диктовать сообщения и взаимодействовать с платформой голосом как на веб-версии, так и на мобильных устройствах.

Mistral предлагает открытую языковую модель Voxtral для распознавания речи

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Mistral представляет линейку моделей Magistral для бизнеса и разработчиков

Mistral AI запустила Libraries для создания библиотек файлов

Стартап Krisp изменяет языковой акцент пользователей во время звонков

Прокачайся с AI!