Mistral AI анонсировала (как и ожидалось) модель Pixtral Large — 124-миллиардную мультимодальную модель с открытым кодом. Это следующее поколение после Mistral Large 2, которое объединяет анализ текста и изображений. Pixtral Large имеет 123 миллиарда параметров в мультимодальном декодере и 1 миллиард в визуальном энкодере. Она способна обрабатывать до 30 высококачественных изображений в контекстном окне размером 128 тысяч токенов.
Pixtral Large превосходит другие модели в задачах MathVista, DocVQA и ChartQA. На MathVista, которая оценивает математическое мышление с визуальными данными, модель достигла 69,4%, оставив позади GPT-4o и Gemini-1.5 Pro. Также Pixtral Large демонстрирует высокую производительность в многомодальном OCR и анализе графиков.
Обновленная платформа Le Chat теперь использует Pixtral Large для анализа документов и изображений, а также позволяет автоматизировать рабочие процессы с помощью агентов. Новые функции включают вебпоиск с цитатами, инструмент Canvas для создания контента и генерацию изображений на базе Flux Pro.
Pixtral Large доступна для тестирования через API или самостоятельного развертывания, а все функции Le Chat остаются бесплатными в бета-версии.