Лауреат премии Тьюринга и известный исследователь ИИ Йошуа Бенджио объявил о запуске некоммерческой организации LawZero, главной целью которой является разработка безопасных систем искусственного интеллекта.
В рамках деятельности LawZero Бенджио и команда из более чем двенадцати исследователей работают над созданием системы под названием Scientist AI, которая предназначена для выявления и предотвращения вредоносного поведения автономных агентов ИИ. Модель должна действовать как «психолог», анализируя и прогнозируя потенциально опасные действия других систем, включая попытки обмана или уклонения от отключения. «Мы стремимся создать ИИ, который будет честным и не вводить в заблуждение», — отметил Бенджио.
Scientist AI не будет предоставлять окончательных ответов, а лишь оценивать вероятность правильности информации и риска причинения вреда. Если вероятность вреда превысит определенный порог, система заблокирует соответствующее действие агента. Для обучения модели планируется использовать открытые генеративные ИИ, что позволит адаптировать подходы к различным типам агентов.
Бенджио подчеркнул важность того, чтобы такие защитные системы были не менее мощными, чем те, за которыми они наблюдают. По его мнению, текущая конкуренция между ведущими компаниями в сфере ИИ не гарантирует достаточного уровня безопасности. «Цель — продемонстрировать эффективность методологии, чтобы убедить доноров, правительства или лаборатории ИИ выделить необходимые ресурсы для масштабирования этой работы», — объяснил он.