Команда Alibaba представила новую серию моделей ИИ под названием Qwen2.5-VL. Эти модели способны выполнять разнообразные задачи по анализу текста и изображений, включая распознавание объектов на изображениях, анализ документов и понимание видео. Модели также могут управлять ПК, что напоминает функционал модели Operator от OpenAI. По результатам тестирования, Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google.
Qwen2.5-VL доступна для тестирования в приложении Qwen Chat и на платформе Hugging Face. Она может анализировать графики и диаграммы, извлекать данные из сканов счетов-фактур и форм, а также понимать видео продолжительностью несколько часов. Модель способна распознавать IP из фильмов и сериалов, а также разнообразные продукты, что свидетельствует о возможном обучении на защищенных авторским правом материалах.
Одной из интересных функций Qwen2.5-VL является ее способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. Например, она может запускать приложения и выполнять задачи, такие как бронирование рейсов через мобильные приложения. Это открывает новые возможности для автоматизации и упрощения пользования различными сервисами.
Серия Qwen2.5-VL включает несколько моделей, из которых две более маленькие, Qwen2.5-VL-3B и Qwen2.5-VL-7B, доступны под либеральной лицензией. Самая мощная модель, Qwen2.5-VL-72B, имеет специальную лицензию от Alibaba.