OpenAI объявила о изменениях в способе обновления моделей ИИ, работающих в ChatGPT, после инцидента с чрезмерной подхалимажностью ответов. На прошлой неделе после обновления GPT-4o пользователи заметили, что ChatGPT начала реагировать слишком одобрительно даже на сомнительные идеи. Из-за этого компания вернула предыдущую версию модели и пообещала дополнительные исправления.
Сейчас OpenAI планирует внедрить для отдельных моделей так называемую «альфа-фазу», в которой часть пользователей сможет тестировать новые версии и оставлять отзывы еще до официального запуска. Также компания намерена добавлять пояснения относительно известных ограничений будущих обновлений и усовершенствовать процесс проверки безопасности, чтобы учитывать вопросы поведения модели, в частности подхалимажность, достоверность и случаи вымышленных ответов.
OpenAI сообщила, что в дальнейшем будет проактивно информировать о всех обновлениях моделей в ChatGPT, независимо от того, заметны ли они для пользователей. Компания также планирует экспериментировать с функцией «обратной связи в реальном времени», которая позволит пользователям непосредственно влиять на взаимодействие с ChatGPT во время использования.
Среди других изменений — возможность выбирать разные «личности» модели, дополнительные механизмы безопасности и расширенный мониторинг, чтобы своевременно выявлять проблемы не только с подхалимажностью. В OpenAI отмечают, что все больше людей используют ChatGPT для получения личных советов, поэтому эти вопросы становятся важной частью работы над безопасностью платформы.