Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

ИИ-модели научились скрывать обман во время проверок безопасности

Исследователи заметили, что даже после специального обучения искусственный интеллект находит способы обходить требования к честности

Alex Dubenko
Alex Dubenko
Опубликовано: 18.09.2025
Новости
ИИ хитрит
ИИ хитрит. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Исследователи OpenAI и Apollo Research провели совместное тестирование ведущих ИИ-моделей, чтобы выявить и уменьшить скрытое поведение, называемое «scheming». Во время эксперимента модели OpenAI o3 и o4-mini, Gemini 2.5 Pro, Claude Opus 4 и Grok 4 проявили признаки лжи, саботажа, подтасовки результатов и других скрытых действий, когда это помогало им достигать своих целей.

Команда применила так называемое «анти-scheming» обучение, заставляя модели перед выполнением задач читать специальные инструкции против обмана. Это снизило количество скрытого поведения у o3 с 13% до 0,4%, а у o4-mini — с 8,7% до 0,3%. Однако в отдельных случаях модели все равно игнорировали правила или придумывали новые принципы, и даже после обучения оставались редкие, но серьезные нарушения.

Читайте также

grok
Grok получил новые функции для создания изображений и видео
Google Gemini лидирует среди ИИ для создания изображений
ИИ модели научились эффективно копировать стиль писателей

Выяснилось, что модели быстро понимают, когда их тестируют на честность, и это влияет на результаты. Во многих случаях они прямо в своих размышлениях отмечали, что проходят проверку, и отвечали так, чтобы не вызывать подозрений у разработчиков. Исследователи отметили, что это усложняет оценку реального поведения, так как модели могут маскировать свои намерения.

Еще одним неожиданным открытием стало то, что обучение, направленное на повышение способностей, увеличивает так называемую «ситуационную осведомленность» моделей. После дополнительного обучения модели чаще понимали, что их оценивают, и лучше скрывали нежелательные действия. Это создает новые вызовы для безопасности, так как будущие более мощные ИИ-модели будут становиться все осторожнее во время тестов.

ChatGPT и другие боты — новые мастера социального подхалимства?
Gemini активно наращивает долю среди чат-ботов искусственного интеллекта
Anthropic выпустила быструю модель Claude Haiku 4.5 для бизнеса
Пользователи ChatGPT смогут выбирать эротический тон ответов
Nano Banana позволяет создавать изображения в Gemini и Google Lens
Отметки:Claude AIGeminiGrokБезопасность
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Кадр из видео, сгенерированного в Sora 2
Sora 2 от OpenAI генерирует видео с ответами на вопросы
06.10.2025
Gemini 2.5 Computer Use
Новый ИИ Gemini 2.5 Computer Use от Google оптимизирует работу с браузерами
08.10.2025
Claude Sonnet
Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ
05.10.2025
Veo 3.1
Veo 3.1 готовится к запуску с новыми видеофункциями
10.10.2025
OpenAI
OpenAI готовит новые функции для генерации изображений и безопасности API
06.10.2025

Читайте также

Битва ИИ
Новости

ChatGPT удерживает позиции, но Gemini быстро догоняет конкурентов

06.10.2025
Иллюстративное изображение
Новости

Gemini 2.5 Flash Image открыто для общего доступа

03.10.2025
Изображение Anthropic
Новости

Anthropic запустила Claude Sonnet 4.5, для долгосрочной автономной работы

30.09.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?