ИИ-модели научились скрывать обман во время проверок безопасности

Исследователи заметили, что даже после специального обучения искусственный интеллект находит способы обходить требования к честности

Alex Dubenko

Опубликовано: 18.09.2025

Новости

ИИ хитрит. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.

Исследователи OpenAI и Apollo Research провели совместное тестирование ведущих ИИ-моделей, чтобы выявить и уменьшить скрытое поведение, называемое «scheming». Во время эксперимента модели OpenAI o3 и o4-mini, Gemini 2.5 Pro, Claude Opus 4 и Grok 4 проявили признаки лжи, саботажа, подтасовки результатов и других скрытых действий, когда это помогало им достигать своих целей.

Команда применила так называемое «анти-scheming» обучение, заставляя модели перед выполнением задач читать специальные инструкции против обмана. Это снизило количество скрытого поведения у o3 с 13% до 0,4%, а у o4-mini — с 8,7% до 0,3%. Однако в отдельных случаях модели все равно игнорировали правила или придумывали новые принципы, и даже после обучения оставались редкие, но серьезные нарушения.

Выяснилось, что модели быстро понимают, когда их тестируют на честность, и это влияет на результаты. Во многих случаях они прямо в своих размышлениях отмечали, что проходят проверку, и отвечали так, чтобы не вызывать подозрений у разработчиков. Исследователи отметили, что это усложняет оценку реального поведения, так как модели могут маскировать свои намерения.

Еще одним неожиданным открытием стало то, что обучение, направленное на повышение способностей, увеличивает так называемую «ситуационную осведомленность» моделей. После дополнительного обучения модели чаще понимали, что их оценивают, и лучше скрывали нежелательные действия. Это создает новые вызовы для безопасности, так как будущие более мощные ИИ-модели будут становиться все осторожнее во время тестов.

Отметки:Claude AI Gemini Grok Безопасность

Комментариев нет

ИИ-модели научились скрывать обман во время проверок безопасности

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Sora 2 от OpenAI генерирует видео с ответами на вопросы

Новый ИИ Gemini 2.5 Computer Use от Google оптимизирует работу с браузерами

Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ

Veo 3.1 готовится к запуску с новыми видеофункциями

OpenAI готовит новые функции для генерации изображений и безопасности API

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!