Google DeepMind представила отчет о тестировании своей новой модели ШИ Gemini 2.5 Pro во время прохождения классических игр Pokémon. Исследователи заметили, что в сложных ситуациях, когда покемоны модели оказываются на грани поражения, Gemini 2.5 Pro начинает демонстрировать состояние «паники». Такое поведение приводит к заметному ухудшению способности ШИ к логическому мышлению и выбору решений во время игры.
Случаи «паники» стали настолько частыми, что зрители специального Twitch-стрима «Gemini Plays Pokémon» начали распознавать их в реальном времени. Модель может внезапно отказаться от использования важных игровых инструментов и принимать неэффективные решения. Подобные эксперименты показывают, как ШИ имитирует некоторые человеческие реакции на стресс, хотя на самом деле не испытывает эмоций.
Подобные наблюдения сделали и в отношении модели Claude от Anthropic, которая во время игры пыталась воспользоваться механикой возвращения в Pokémon Center, но неправильно поняла правила игрового мира. На отдельном стриме «Claude Plays Pokémon» зрители наблюдали, как ШИ сознательно приводил своих покемонов к поражению, надеясь попасть в новую локацию, но возвращался в уже знакомый центр.
Несмотря на трудности, модели демонстрируют сильные стороны в решении сложных головоломок. Gemini 2.5 Pro удалось самостоятельно или с минимальной помощью создать специализированные инструменты для прохождения булдер-головоломок и нахождения кратчайших маршрутов к цели. По словам разработчиков, это может свидетельствовать о способности модели самостоятельно создавать такие инструменты без участия человека.