Google представила новую модель ИИ Gemini 2.5 Computer Use, которая позволяет агентам работать с веб-интерфейсами непосредственно через браузер. Разработчики могут протестировать эту модель в открытом доступе через Gemini API в Google AI Studio, Vertex AI, а также в демоверсии на Browserbase. Модель анализирует запрос пользователя, снимок экрана и историю предыдущих действий, после чего выполняет одно из тринадцати действий, включая ввод текста, клик, прокрутку, перетаскивание элементов или навигацию по адресу.
Gemini 2.5 Computer Use оптимизирована для работы в браузерах, но также демонстрирует хорошие результаты для мобильных интерфейсов, хотя еще не предназначена для управления на уровне операционной системы компьютера. Модель использует возможности визуального анализа и логического мышления, что позволяет ей выполнять задачи вроде заполнения форм, организации заметок в онлайн-сервисах или добавления товаров в корзину по списку ингредиентов.
Google утверждает, что Gemini 2.5 Computer Use превосходит альтернативные решения по точности и скорости в нескольких тестах, среди которых Online-Mind2Web и AndroidWorld. Модель уже используется для автоматизированного тестирования интерфейсов во внутренних проектах компании, таких как Project Mariner и AI Mode в Search, а также получила положительные отзывы от ранних пользователей, которые создают личных помощников и инструменты для автоматизации рабочих процессов.
Чтобы обеспечить безопасность, Google внедрила проверку каждого действия перед его выполнением, а разработчики могут устанавливать дополнительные ограничения, например, требовать подтверждения пользователя или блокировать рискованные действия, такие как попытки обойти CAPTCHA или взаимодействие с медицинскими устройствами. По словам Google, модель поможет автоматизировать рутинные задачи без необходимости в специальных API, что открывает новые возможности для команд, работающих над тестированием интерфейсов и цифровой автоматизацией.