Французская компания Mistral представила Voxtral — открытую языковую модель для распознавания и понимания речи. Она доступна в двух версиях: Voxtral Small 24B для производственных применений и компактная Voxtral 3B для локального или edge-использования. Обе поддерживают окно контекста на 32 тысячи токенов, что позволяет обрабатывать аудиофайлы до 30 минут для транскрипции и до 40 минут для задач понимания.
Модель распознает английский, испанский, французский, португальский, хинди, немецкий, нидерландский и итальянский языки. Она сочетает транскрипцию, ответы на вопросы и суммирование без необходимости в дополнительных языковых или распознавательных модулях. Пользователи могут запускать функции в бэкенде через голосовые команды, так как модель автоматически преобразует запросы в вызовы API.
По результатам тестов Mistral, Voxtral Small превосходит Whisper large-v3, GPT-4o mini Transcribe и Gemini 2.5 Flash в большинстве задач, в частности на англоязычных коротких фрагментах и в многоязычных тестах FLEURS. Модель также показала конкурентные результаты в понимании аудио и переводе речи, а Voxtral Mini Transcribe работает точнее и дешевле, чем OpenAI Whisper.
API Voxtral предлагает цену от 0,001 доллара за минуту, а для корпоративных клиентов доступна приватная установка и тонкая настройка под отраслевые нужды. В ближайших обновлениях появятся сегментация по голосам, разметка эмоций и возраста, а также таймкоды на уровне слов.
Модели уже доступны для загрузки на Hugging Face под лицензией Apache-2.0 и через API. В ближайшие недели Voxtral станет основой голосового режима в Le Chat, что позволит пользователям диктовать сообщения и взаимодействовать с платформой голосом как на веб-версии, так и на мобильных устройствах.