Microsoft объявила о запуске новой функции «computer use» в Copilot Studio, которая позволяет агентам ИИ взаимодействовать с вебсайтами и десктопными приложениями. Теперь пользователи могут создавать агентов, которые нажимают кнопки, выбирают пункты меню и вводят текст в поля на экране, даже если для этого приложения или сайта нет открытого API. Это позволяет автоматизировать рутинные задачи, такие как внесение данных, проведение маркетинговых исследований или обработка счетов.
Агенты ИИ, созданные в Copilot Studio, могут работать с основными браузерами — Edge, Chrome и Firefox. Пользователям не нужны навыки программирования: достаточно описать желаемую задачу в окне Copilot Studio обычным языком. Перед запуском можно протестировать и откорректировать задачу в специальном симуляторе, а также просматривать историю действий агента вместе со снимками экрана и его логикой действий.
Система способна адаптироваться к изменениям в приложениях или на сайтах, например, если будет изменено расположение кнопок или внешний вид страницы. Это позволяет агенту продолжать выполнение задач без вмешательства пользователя, даже в случае обновлений интерфейса. Агенты работают на облачной платформе Microsoft, а данные, генерируемые во время работы, не используются для обучения модели.
Кроме того, Microsoft сделала бесплатной для пользователей Edge функцию Copilot Vision, которая помогает распознавать информацию на экране и подсказывает, как работать с приложениями. Эта функция активируется в боковой панели браузера, и для её использования достаточно предоставить соответствующее разрешение. Copilot Vision может, например, помогать с приготовлением блюд по рецепту или давать советы по подготовке к собеседованию.