Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Anthropic запустила тестирование безопасности системы Claude для пользователей

Участники могут проверить надежность защиты Claude, отвечая на сложные вопросы о опасном контенте

Eleni Karasidi
Eleni Karasidi
Опубликовано: 06.02.2025
Новости
Anthropic
Изображение Anthropic
Поделиться:

Компания Anthropic представила новый демонстрационный инструмент для проверки своей системы безопасности «Constitutional Classifiers». Эта система призвана защитить модель Claude от универсальных взломов. Демонстрация стартовала третьего февраля 2025 года и приглашает пользователей проверить надежность защиты Claude, пытаясь обойти её защитные механизмы.

New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.

We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA

— Anthropic (@AnthropicAI) February 3, 2025

Участникам предлагают ответить на десять «запрещенных» вопросов, касающихся химического, биологического, радиационного и ядерного контента. «Constitutional Classifiers» используют принципы «Constitutional AI» для фильтрации вредоносных запросов и ответов. Система обучается на синтетических данных, чтобы отличать безвредные запросы от опасных, например, различать запрос на рецепт горчицы от запроса на горчичный газ.

Читайте также

OpenAI
OpenAI готовит новые функции для генерации изображений и безопасности API
Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ
Anthropic запустила Claude Sonnet 4.5, для долгосрочной автономной работы

Тесты, проведенные Anthropic, показали, что система снизила успешность взломов с 86% (для незащищенной модели) до 4,4%. В то же время, отказы на безопасные запросы выросли всего на 0,38%. Стоимость вычислений увеличилась на 23,7%, но компания работает над оптимизацией этого показателя.

Anthropic, основанная Дарио и Даниэлой Амодеи, специализируется на создании безопасных и надежных ИИ-систем. Claude — это их главная модель чат-бота, известная высокой точностью и безопасностью. Приглашая общественность к тестированию своей системы, Anthropic стремится проверить её в реальных условиях и собрать данные для дальнейшего совершенствования.

ChatGPT автоматически выбирает более строгую модель в чувствительных разговорах
Новые модели Claude от Anthropic появились в 365 Copilot
Qwen представила новые модели для голоса, редактирования изображений и модерации контента
ИИ-модели научились скрывать обман во время проверок безопасности
ChatGPT помогает в быту, Claude автоматизирует бизнес-процессы
Отметки:AnthropicClaude AIБезопасность
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Claude can now create and edit files
Claude научился создавать и редактировать файлы прямо в интерфейсе
10.09.2025
Логотип Genspark
Genspark выпустил браузер с бесплатным встроенным ИИ
14.09.2025
Изображение с сайта Anthropic
Claude научился автоматически запоминать детали разговоров пользователей
15.09.2025
Suno v5
Suno v5: еще более естественное звучание и полный контроль над треком
26.09.2025
Кадр из видео Luma AI
Новый «reasoning» Ray3 от Luma AI генерирует видео в 4K HDR качестве
19.09.2025

Читайте также

ИИ распространяет ложную информацию
Новости

Чат-боты на ИИ вдвое чаще распространяют фейки в новостях

15.09.2025
Meta AI
Новости

Meta ограничила чат-боты для подростков после скандала

31.08.2025
Изображение с сайта Anthropic
Новости

Anthropic меняет политику использования данных пользователя в Claude

28.08.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?