Apple представила исследовательскую работу о новой ИИ-модели для работы с изображениями под названием Manzano. Она способна как распознавать, так и создавать изображения, что обычно является сложной задачей для открытых моделей. Компания опубликовала результаты тестов Manzano на сложных запросах, сравнивая её с системами Deepseek Janus Pro, GPT-4o и Gemini 2.5 Flash Image Generation от Google.

Manzano использует гибридный токенизатор изображений, который обеспечивает два типа токенов. Непрерывные токены помогают модели лучше понимать изображения, а дискретные — создавать их. Оба потока формирует общий энкодер, что уменьшает конфликты между задачами анализа и генерации изображений.
Архитектура Manzano включает гибридный токенизатор, единую языковую модель и отдельный декодер изображений. Apple создала несколько версий декодера с различным количеством параметров, что позволяет работать с разрешением от 256 до 2048 пикселей. Для обучения исследователи использовали более двух миллиардов пар «изображение–текст» и один миллиард пар «текст–изображение» из публичных и внутренних источников.
В тестах Apple модель Manzano показала лучшие результаты на задачах с анализом диаграмм, документов и других задачах, где нужно много работать с текстом. Версии с большим количеством параметров демонстрируют более высокое качество выполнения по сравнению с меньшими. Manzano уверенно справляется с задачами генерации изображений, стилизацией, редактированием, добавлением новых элементов и оценкой глубины.
Apple считает, что модульная структура Manzano позволит обновлять отдельные компоненты независимо и применять различные подходы к обучению. Модель пока недоступна для публичного использования, но компания планирует развивать собственные ИИ-решения и использовать GPT-5 от OpenAI в Apple Intelligence, начиная с iOS 26.