Anthropic запустила тестирование безопасности системы Claude для пользователей

Участники могут проверить надежность защиты Claude, отвечая на сложные вопросы о опасном контенте

Опубликовано: 06.02.2025

Изображение Anthropic

Компания Anthropic представила новый демонстрационный инструмент для проверки своей системы безопасности «Constitutional Classifiers». Эта система призвана защитить модель Claude от универсальных взломов. Демонстрация стартовала третьего февраля 2025 года и приглашает пользователей проверить надежность защиты Claude, пытаясь обойти её защитные механизмы.

New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.

We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA
— Anthropic (@AnthropicAI) February 3, 2025

Участникам предлагают ответить на десять «запрещенных» вопросов, касающихся химического, биологического, радиационного и ядерного контента. «Constitutional Classifiers» используют принципы «Constitutional AI» для фильтрации вредоносных запросов и ответов. Система обучается на синтетических данных, чтобы отличать безвредные запросы от опасных, например, различать запрос на рецепт горчицы от запроса на горчичный газ.

Тесты, проведенные Anthropic, показали, что система снизила успешность взломов с 86% (для незащищенной модели) до 4,4%. В то же время, отказы на безопасные запросы выросли всего на 0,38%. Стоимость вычислений увеличилась на 23,7%, но компания работает над оптимизацией этого показателя.

Anthropic, основанная Дарио и Даниэлой Амодеи, специализируется на создании безопасных и надежных ИИ-систем. Claude — это их главная модель чат-бота, известная высокой точностью и безопасностью. Приглашая общественность к тестированию своей системы, Anthropic стремится проверить её в реальных условиях и собрать данные для дальнейшего совершенствования.

Отметки:Anthropic Claude AI Безопасность

Комментариев нет

Anthropic запустила тестирование безопасности системы Claude для пользователей

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Claude научился создавать и редактировать файлы прямо в интерфейсе

Genspark выпустил браузер с бесплатным встроенным ИИ

Claude научился автоматически запоминать детали разговоров пользователей

Suno v5: еще более естественное звучание и полный контроль над треком

Новый «reasoning» Ray3 от Luma AI генерирует видео в 4K HDR качестве

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!