Команда Hugging Face представила открытую облачную агента — Open Computer Agent, который может выполнять задачи на виртуальном компьютере с операционной системой Linux. Доступ к агенту предоставляется через веб-интерфейс, где пользователи могут поручать ему простые действия, например, находить места на карте или открывать сайты в браузере Firefox, который уже установлен на виртуальной машине.
Open Computer Agent способен выполнять базовые запросы, однако с более сложными задачами, такими как поиск авиабилетов, у него возникают трудности. Агент также не может проходить CAPTCHA-тесты, которые часто встречаются при работе с различными сайтами. Чтобы воспользоваться Open Computer Agent, нужно подождать в виртуальной очереди, время ожидания зависит от нагрузки на сервис и может длиться от нескольких секунд до нескольких минут.
Особенностью агента является поддержка моделей компьютерного зрения, в частности Qwen-VL, которые могут определять координаты объектов на изображениях и взаимодействовать с виртуальными элементами интерфейса. Это позволяет агенту выполнять более сложные сценарии автоматизации, что может быть полезно для пользователей, которые стремятся делегировать рутинные задачи.
Разработчики подчеркивают, что эта модель не позиционируется как лучшая в своем классе, а служит демонстрацией растущих возможностей открытых моделей ИИ. По данным исследований, около двух третей компаний уже тестируют подобные решения для повышения эффективности работы, а рынок агентов на основе ИИ, по прогнозам, будет расти в ближайшие годы.