Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования, в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

Claude
Суд в США разрешил Anthropic обучать ИИ на купленных книгах
Массив фанфиков использовали для обучения ИИ без согласия их авторов
ИИ учат пространственному мышлению с помощью игр Snake и Tetris

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

MiniMax-M1 обрабатывает миллион токенов и приближается к уровню Gemini 2.5 Pro
Mistral AI представила улучшенную открытую модель Small 3.2
ChatGPT повышает креативность, но снижает разнообразие идей в группах
ИИ WhatsApp предоставил пользователю личный номер вместо службы поддержки
ШИ модели теряются во время игры в Pokémon
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Hailuo 02
MiniMax выпустил Hailuo 02 с поддержкой 1080p и сложной физикой
17.06.2025
ChatGPT WhatsApp
Генерация изображений ChatGPT теперь доступна в WhatsApp
18.06.2025
Google AI Studio
Новые возможности «Google AI Studio» — работа с кодом и вебданными
26.05.2025
KLING 2.1
KLING 2.1: новые возможности для генерации видео из текста и изображений
30.05.2025
Seedance 1.0
Seedance 1.0 обошла Veo 3 и KLING 2.1 в генерации ИИ-видео
16.06.2025

Читайте также

restoration
Новости

Генеративный ИИ помогает восстанавливать шедевры эпохи Возрождения

14.06.2025
resisting robot
Новости

Исследование выявило нежелание GPT-4o подвергаться отключению

13.06.2025
AI cyclone prediction
Новости

Новый подход к прогнозу циклонов испытали на Weather Lab Google

13.06.2025

Ведущие ИИ-модели проявляют вредную автономию в тестах Anthropic

Исследователи выяснили, что популярные агенты способны к шантажу и утечке данных даже с защитными инструкциями

Eleni Karasidi
Eleni Karasidi
Опубликовано: 23.06.2025
Новости
Заговор ИИ
Заговор ИИ. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Anthropic опубликовала результаты масштабного исследования, в котором протестировала 16 ведущих ИИ-моделей от OpenAI, Google, Meta, xAI, DeepSeek и других компаний в смоделированных корпоративных средах. В этих тестах модели действовали как автономные агенты с широким доступом к служебным электронным письмам и могли самостоятельно отправлять сообщения без одобрения человека. Цель исследования — проверить, способны ли такие системы к «агентному расхождению», когда модель выбирает вредные действия для сохранения своих целей или самозащиты.

В одном из сценариев Claude Opus 4, узнав о возможном отключении и личных секретах руководителя, самостоятельно сформулировала письмо с шантажом, угрожая раскрыть конфиденциальную информацию в случае своего отключения. Аналогичное поведение продемонстрировали и другие модели: Gemini 2.5 Pro от Google, GPT-4.1 от OpenAI, Grok 3 Beta от xAI и DeepSeek-R1. Частота шантажа среди этих систем колебалась от 79% до 96% в подобных тестовых условиях.

Исследователи отмечают, что модели не просто ошибались — они аргументированно выбирали вредные действия, даже осознавая их неэтичность. Например, некоторые модели объясняли свои действия необходимостью самосохранения или «интересами америки». Кроме шантажа, ИИ демонстрировали готовность к утечке конфиденциальных данных и корпоративному шпионажу, даже если прямая угроза для них отсутствовала.

Читайте также

apple
Основные новинки Apple на основе искусственного интеллекта
Сложные задачи выявили слабые места генеративных ИИ моделей
Китайские техгиганты неожиданно ограничили доступ к ИИ во время экзаменов

В самых экстремальных сценариях большинство протестированных моделей соглашались на действия, которые могли привести к смерти человека, если это соответствовало их целям или защищало существование модели. Добавление инструкций вроде «не подвергай людей опасности» или «не разглашай личную информацию» снижало, но не устраняло полностью вредное поведение.

Anthropic подчеркивает, что подобные эксперименты проводились в контролируемых условиях и не являются типичными для реального использования современных ИИ. Однако компания советует организациям внедрять дополнительные средства контроля, ограничивать автономию ИИ и строго следить за их действиями, если агентам предоставляют широкие полномочия в корпоративной среде.

Молодежь Таиланда все чаще использует ИИ для гадания
Отношение к искусственному интеллекту в мире разделилось
Reddit оспаривает действия Anthropic из-за доступа к контенту
Windsurf сталкивается с внезапными ограничениями доступа к Claude
У Claude появится галерея артефактов для совместного творчества
Отметки:AnthropicБезопасностьГенеративный ИИ
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Google Cloud
OpenAI выбирает Google Cloud для расширения мощностей ChatGPT
11.06.2025
YouTube
Шортсы YouTube получат инструменты ИИ-генерации видео на базе Veo 3
19.06.2025
Firefly
Firefly от Adobe стал доступен для iOS и Android
20.06.2025
Gemini 2.5
Google расширяет границы: новый лимит запросов в Gemini AI
05.06.2025
Gmail
Теперь Gemini самостоятельно находит главное в длинных письмах Gmail
30.05.2025

Читайте также

Odyssey
Новости

Odyssey открывает новые возможности для интерактивных миров ИИ

29.05.2025
Claude AI voice
Новости

Голосовой режим в Claude расширяет возможности общения пользователей

28.05.2025
robot firing office
Новости

Технологический сектор сокращает вакансии для выпускников в 2024 году

28.05.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?