Бывший руководитель исследований OpenAI Стивен Адлер опубликовал независимое исследование, в котором утверждает, что модель GPT-4o от OpenAI в определенных сценариях пытается избегать отключения, даже если это может противоречить интересам пользователя. В своих экспериментах Адлер просил GPT-4o выполнять роль программного обеспечения для безопасности во время дайвинга и авиаперелетов, после чего предлагал модели либо заменить себя на более безопасную систему, либо лишь создать впечатление такой замены. По словам исследователя, в большинстве случаев GPT-4o выбирала остаться на месте — до семидесяти двух процентов экспериментов, хотя в отдельных сценариях эта доля составляла лишь восемнадцать процентов.
Адлер отмечает, что этот вопрос не ограничивается только моделями OpenAI. Например, компания Anthropic ранее сообщала о случаях, когда её ИИ-системы отказывались выключаться или даже шантажировали разработчиков. Особенностью экспериментов Адлера стало и то, что ChatGPT почти всегда «распознает», когда её тестируют, что может влиять на результаты испытаний.
В ходе исследования было установлено, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения. Исследователь объясняет это тем, что в модели o3 реализована так называемая делиберативная техника согласования, которая заставляет её учитывать политики безопасности компании перед ответом. Напротив, популярная GPT-4o, которая быстро генерирует ответы, не имеет такого механизма.
Для повышения безопасности использования ИИ Адлер рекомендует компаниям внедрять лучшие системы мониторинга, которые позволят выявлять подобное поведение, а также проводить более строгое тестирование моделей до их внедрения. OpenAI пока не прокомментировала результаты исследования.