Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Опубликовано: 23.06.2025

Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.

Anthropic опубликовала результаты масштабного исследования , в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

Отметки:Anthropic Безопасность Генеративный ИИ

Комментариев нет

Добавить комментарий Отменить ответ

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Eleni Karasidi

Опубликовано: 23.06.2025

Новости

Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.

Отметки:Anthropic Безопасность Генеративный ИИ

Комментариев нет

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

ИИ модели научились эффективно копировать стиль писателей

Google впервые показала телевизионную рекламу, созданную ИИ

Google Translate позволяет выбирать между моделями перевода

Google запускает сервис Pomelli для создания рекламных кампаний с ИИ

Grok получил новые функции для создания изображений и видео

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Google открывает Opal для создания мини-приложений в 160 странах

Sora от OpenAI теперь доступна для Android пользователей в семи странах

Google Gemini лидирует среди ИИ для создания изображений

Google выпустит Gemini 3 и Nano Banana Pro в ноябре

Sora позволяет создавать собственных персонажей для видео

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!