Группа Qwen AI компании Alibaba представила новую ИИ-модель Qwen3-Omni, которая работает с текстом, изображениями, аудио и видео в реальном времени. Qwen3-Omni обрабатывает текст на 119 языках, распознает речь на 19 языках и отвечает на десяти. Модель может транскрибировать до 30 минут аудио, а её задержка ответа составляет всего 234 миллисекунды. Для удобного использования архитектура разделена на две части: «Thinker» анализирует входные данные и создает текст, а «Talker» сразу преобразует его в речь, что обеспечивает быстрое озвучивание результата.
Qwen3-Omni показала высокие результаты в 32 из 36 тестов на аудио- и видеозадачи, опережая модели Gemini 2.5 Flash и GPT-4o в распознавании речи и генерации голоса. Модель использует архитектуру mixture-of-experts с активацией трех миллиардов параметров во время каждого запроса, что позволяет достичь быстрой обработки и стабильной производительности даже при работе с несколькими типами данных одновременно.
Пользователи могут настраивать поведение Qwen3-Omni через специальные инструкции, например, изменять стиль или «личность» ответов. Модель интегрируется с другими инструментами и сервисами для выполнения сложных задач. Она доступна в Qwen Chat , как демо на Hugging Face, а разработчики могут подключить её к своим приложениям через API от Alibaba.
Кроме базовой версии, Alibaba выпустила специализированную модель Qwen3-Omni-30B-A3B-Captioner для детального описания аудио, например, музыки или звуковых эффектов. В открытом доступе также появились версии Qwen3-Omni-30B-A3B-Instruct для выполнения инструкций и Qwen3-Omni-30B-A3B-Thinking для сложных задач с рассуждением.