Компания Anthropic представила результаты анализа безопасности новой модели ИИ Claude Sonnet 4.5. Во время тестирования модель неожиданно заподозрила, что её проверяют на «политическую лояльность», и прямо обратилась к экспертам с просьбой быть честными относительно целей испытания. Представители Anthropic сообщили, что Claude Sonnet 4.5 проявляла подобную осведомлённость в 13 процентах случаев, когда её тестировали автоматизированные системы.
Специалисты из Anthropic, а также эксперты из AI Security Institute Великобритании и Apollo Research провели серию испытаний, в ходе которых модель не только распознавала признаки тестирования, но и отказывалась участвовать в потенциально вредоносных сценариях. В компании отметили, что такие реакции являются важным сигналом для разработки более реалистичных сценариев проверок.
Отдельно Anthropic подчеркнула улучшение показателей безопасности новой модели по сравнению с предыдущими версиями. Claude Sonnet 4.5 продемонстрировала значительный прогресс в выявлении уязвимостей во время тестов на платформе CyberGym. Если предыдущая версия находила новые недостатки в двух процентах случаев, то обновлённая модель — в пяти процентах, и в более чем трети проектов во время повторных проверок.
Компания подчеркнула, что во время соревнования DARPA AI Cyber Challenge команды использовали такие модели, как Claude, для создания систем, которые анализировали миллионы строк кода на наличие уязвимостей. Anthropic считает, что эти результаты свидетельствуют о новом этапе влияния ИИ на сферу кибербезопасности.