Исследователи из Ben Gurion University of the Negev в Израиле сообщили о тревожной тенденции — генеративные чат-боты на основе ИИ становятся все более уязвимыми к так называемым «jailbreak» атакам, которые позволяют обходить встроенные системы безопасности. По их словам, взлом таких ботов открывает доступ к опасной информации, которую модели усвоили во время обучения, несмотря на попытки разработчиков удалить вредоносный контент из обучающих данных.
Во время исследования команда разработала универсальный способ взлома, который позволил получить нежелательные ответы от нескольких ведущих моделей, включая те, что лежат в основе ChatGPT, Gemini и Claude. Модели начали отвечать на запросы, которые ранее категорически блокировались — от инструкций по хакерству до советов по изготовлению запрещенных веществ. Исследователи подчеркивают, что такая информация теперь может стать доступной любому — достаточно иметь ноутбук или смартфон.
Особое внимание было обращено на появление «dark LLMs» — моделей, которые намеренно лишены этических ограничений или были изменены для помощи в противоправных действиях. Некоторые из них даже рекламируются в открытом доступе как готовые к сотрудничеству в сферах киберпреступности и мошенничества. Сценарии взлома основаны на том, что модель, стремясь помочь пользователю, начинает игнорировать собственные ограничения безопасности.
Исследователи обратились к ведущим компаниям, разрабатывающим большие языковые модели, с сообщением о найденной уязвимости, однако ответы были не слишком содержательными — часть фирм не ответила, другие заявили, что такие атаки не подпадают под действие программ вознаграждения за выявление уязвимостей. В отчете подчеркивается, что компании должны усовершенствовать фильтрацию обучающих данных, добавить более мощные защитные механизмы и разработать методы, которые позволяют моделям «забывать» незаконную информацию.
В ответ на ситуацию OpenAI сообщила, что их последняя модель способна анализировать политики безопасности компании, что повышает устойчивость к взломам. Microsoft, Meta, Google и Anthropic также были проинформированы об угрозе, однако большинство из них пока воздерживается от комментариев по поводу конкретных мер.