В Калифорнии исследовательская организация Hao AI Lab из Университета Калифорнии в Сан-Диего провела эксперимент, бросая генеративный ИИ в мир классической игры Super Mario Bros. Эта игра, которая уже давно стала символом ретро-гейминга, оказалась настоящим вызовом для моделей искусственного интеллекта. Лучше всего справилась модель Claude 3.7 от Anthropic, оставив позади Claude 3.5, тогда как Google Gemini 1.5 Pro и GPT-4o от OpenAI столкнулись с трудностями.

Интересно, что игра была адаптирована специально для этого эксперимента. Используя эмулятор и собственную разработку Hao под названием GamingAgent, ИИ получал базовые инструкции и скриншоты из игры, что позволяло ему контролировать Марио. Модели генерировали команды в виде Python-кода, чтобы управлять персонажем в реальном времени. Оказалось, что эта задача требовала от ИИ научиться планировать сложные маневры и разрабатывать стратегии игры.
Исследователи отметили, что модели, которые обычно считаются более «мыслящими» и способными к сложным размышлениям, не смогли продемонстрировать лучшие результаты в реальном времени. Это объясняется тем, что такие модели требуют больше времени для принятия решений, что может быть критичным в игре, где каждая секунда на счету.
Хотя игры уже давно используются для тестирования возможностей ИИ, некоторые эксперты сомневаются в целесообразности таких сравнений. Игровая среда обычно является абстрактной и проще реальности, предоставляя множество данных для тренировки ИИ. Однако эксперимент с Super Mario Bros. в очередной раз подчеркнул сложность реального времени для моделей ИИ, оставляя открытыми вопросы относительно их эффективности и возможностей в различных условиях.