Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования , в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

Grok
Grok от X ограничил создание изображений после скандала
ШИ-контент захватывает YouTube и приносит миллионы долларов
Meta работает над новыми ИИ-моделями для работы с контентом

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

Google презентовала быструю ИИ-модель Gemini 3 Flash для всех пользователей
OpenAI готовит «взрослый» режим для ChatGPT в 2026 году
Figma добавляет новые ИИ-инструменты для редактирования изображений
Исследование: ИИ не признает ошибки, выдумывая вместо этого фейковые факты
Google запускает режим Deep Think для пользователей Gemini Ultra
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

ИИ-художник Иллюстрация: Craftium
OpenAI обновила GPT Image 1.5 для ChatGPT с новыми возможностями редактирования
17.12.2025
ChatGPT
ChatGPT получил новые гибкие настройки персонализации ответов
21.12.2025
Qwen
Модель Alibaba может клонировать голос с 3 секунд аудио
24.12.2025
Битва чатботов
Доля ChatGPT среди чатботов снижается из-за роста Gemini
26.12.2025
Иллюстративное изображение
Meta запускает Edits для упрощенного мобильного видеомонтажа
18.12.2025

Читайте также

Mistral AI
Новости

Mistral AI представила новую серию моделей Mistral 3 для бизнеса

03.12.2025
Цифровой поезд
Новости

Популярность чат-ботов быстро растет среди разных поколений

30.11.2025
Claude Opus 4.5
Новости

Anthropic выпустила Claude Opus 4.5 с новыми возможностями

25.11.2025

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования , в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

Gemini 3
Gemini 3 стартовал с рекордной популярностью, но не без огрехов
Пользователи TikTok смогут контролировать количество ИИ-видео в ленте
Grok 4.1 от xAI стала доступной всем пользователям бесплатно

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

Китайская Moonshot выпустила открытую модель Kimi K2 Thinking
Adobe показала новые ИИ-инструменты для фото и видео
TikTok добавляет инструменты для упрощения монтажа видео
Pinterest представила новые функции для персонализации досок пользователей
ChatGPT и другие боты — новые мастера социального подхалимства?
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

OpenAI
OpenAI улучшает голосовые возможности ChatGPT для расширения использования в новых устройствах
02.01.2026
Иллюстративное изображение
OpenAI запускает глобальный каталог приложений для ChatGPT
18.12.2025
Beam
Beam позволяет создавать интерактивные ИИ-видео и игры онлайн
19.12.2025
Иллюстративное изображение
Alibaba выпустила Qwen-Image-Layered для многослойной генерации изображений
25.12.2025
Qwen-Image-2512
Alibaba представила открытую модель Qwen-Image 2512 для генерации изображений
05.01.2026

Читайте также

Pokee AI
Новости

Pokee AI открыла модель PokeeResearch-7B для исследований онлайн

23.10.2025
Иллюстрация: Craftium
Новости

YouTube тестирует функцию для обнаружения видео с лицом авторов, созданных ИИ

22.10.2025
Иллюстрация: Craftium
Новости

Более половины статей в интернете пишет ИИ

17.10.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?