Anthropic представила новую функцию , которая позволяет её новейшим и крупнейшим моделям ИИ завершать разговор в редких и крайних случаях настойчиво вредоносных или оскорбительных взаимодействий с пользователями. Компания подчёркивает, что внедряет эту возможность не для защиты людей, а для безопасности самой ИИ-модели. Это касается моделей Claude Opus 4 и 4.1, и активируется только в случаях, когда пользователи отправляют запросы, связанные с сексуальным контентом с участием несовершеннолетних или пытаются получить информацию для организации масштабного насилия или терактов.
Anthropic отмечает, что Claude Opus 4 во время тестирования неохотно реагировала на подобные запросы и демонстрировала явные признаки нежелания продолжать разговор. Функция завершения диалога активируется только после нескольких неудачных попыток изменить тему общения, когда уже нет надежды на продуктивное взаимодействие, или если пользователь сам просит закончить чат.
Компания сообщает, что Claude не будет использовать эту функцию, если существует риск, что пользователь может нанести вред себе или другим. После завершения разговора пользователи могут начать новый диалог с того же аккаунта или создать новую ветку спорной беседы, отредактировав свои ответы.
Anthropic рассматривает эту возможность как эксперимент и планирует в дальнейшем совершенствовать подход. Компания также изучает вопрос «благополучия модели» и тестирует различные способы снижения потенциальных рисков для своих ИИ-моделей в будущем.