Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования , в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

OpenAI
OpenAI готовит новые функции для генерации изображений и безопасности API
Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ
Anthropic запустила Claude Sonnet 4.5, для долгосрочной автономной работы

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

ChatGPT автоматически выбирает более строгую модель в чувствительных разговорах
ШИ-ведущие появились в тестовом режиме на YouTube Music
Новые модели Claude от Anthropic появились в 365 Copilot
Qwen представила новые модели для голоса, редактирования изображений и модерации контента
ИИ-модели научились скрывать обман во время проверок безопасности
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Claude can now create and edit files
Claude научился создавать и редактировать файлы прямо в интерфейсе
10.09.2025
Изображения, сгенерированные ИИ
Анимационный фильм Critterz создают с помощью GPT-5
08.09.2025
Логотип Genspark
Genspark выпустил браузер с бесплатным встроенным ИИ
14.09.2025
Изображение с сайта Anthropic
Claude научился автоматически запоминать детали разговоров пользователей
15.09.2025
Gemini
Google опубликовала лимиты для сервиса Gemini
08.09.2025

Читайте также

ChatGPT и Claude
Новости

ChatGPT помогает в быту, Claude автоматизирует бизнес-процессы

17.09.2025
Изображение с сайта mistral
Новости

Le Chat получил интеграции с платформами и функцию памяти

03.09.2025
Meta AI
Новости

Meta ограничила чат-боты для подростков после скандала

31.08.2025

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования , в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

Гонки ИИ
Новый отчет показывает изменения среди лидеров ИИ-чатботов
Anthropic меняет политику использования данных пользователя в Claude
Видео Shorts на YouTube обрабатываются ИИ без согласия их авторов

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

Новые бесплатные курсы Anthropic помогают студентам освоить ИИ
DeepSeek открывает доступ к мощной ИИ-модели V3.1
Ответы GPT-5 снова станут теплее и дружелюбнее
Claude Opus 4 получит функцию завершения опасных разговоров
Легкая версия Hunyuan World Model 1.0 стала доступнее для пользователей
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Suno v5
Suno v5: еще более естественное звучание и полный контроль над треком
26.09.2025
Кадр из видео Luma AI
Новый «reasoning» Ray3 от Luma AI генерирует видео в 4K HDR качестве
19.09.2025
ИИ примеряет маски
ChatGPT получил новые опции персонализации для пользователей
18.09.2025
Пример изображения
Использование Nano Banana в Gemini растет благодаря мини-фигуркам (+промпт)
16.09.2025
ИИ распространяет ложную информацию
Чат-боты на ИИ вдвое чаще распространяют фейки в новостях
15.09.2025

Читайте также

Иллюстративное изображение
Новости

Claude Sonnet 4 получил поддержку миллиона токенов в API

13.08.2025
Claude
Новости

Claude получил функцию памяти для сохранения разговоров пользователей

12.08.2025
Claude 4
Новости

Claude Opus 4.1 повышает точность и производительность ИИ-модели

08.08.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?