Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Anthropic запустила тестирование безопасности системы Claude для пользователей

Участники могут проверить надежность защиты Claude, отвечая на сложные вопросы о опасном контенте

Eleni Karasidi
Eleni Karasidi
Опубликовано: 06.02.2025
Новости
Anthropic
Изображение Anthropic
Поделиться:

Компания Anthropic представила новый демонстрационный инструмент для проверки своей системы безопасности «Constitutional Classifiers». Эта система призвана защитить модель Claude от универсальных взломов. Демонстрация стартовала третьего февраля 2025 года и приглашает пользователей проверить надежность защиты Claude, пытаясь обойти её защитные механизмы.

New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.

We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA

— Anthropic (@AnthropicAI) February 3, 2025

Участникам предлагают ответить на десять «запрещенных» вопросов, касающихся химического, биологического, радиационного и ядерного контента. «Constitutional Classifiers» используют принципы «Constitutional AI» для фильтрации вредоносных запросов и ответов. Система обучается на синтетических данных, чтобы отличать безвредные запросы от опасных, например, различать запрос на рецепт горчицы от запроса на горчичный газ.

Читайте также

Claude Opus 4.5
Anthropic выпустила Claude Opus 4.5 с новыми возможностями
Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)
ИИ модели научились эффективно копировать стиль писателей

Тесты, проведенные Anthropic, показали, что система снизила успешность взломов с 86% (для незащищенной модели) до 4,4%. В то же время, отказы на безопасные запросы выросли всего на 0,38%. Стоимость вычислений увеличилась на 23,7%, но компания работает над оптимизацией этого показателя.

Anthropic, основанная Дарио и Даниэлой Амодеи, специализируется на создании безопасных и надежных ИИ-систем. Claude — это их главная модель чат-бота, известная высокой точностью и безопасностью. Приглашая общественность к тестированию своей системы, Anthropic стремится проверить её в реальных условиях и собрать данные для дальнейшего совершенствования.

ChatGPT и другие боты — новые мастера социального подхалимства?
Anthropic выпустила быструю модель Claude Haiku 4.5 для бизнеса
Пользователи ChatGPT смогут выбирать эротический тон ответов
OpenAI готовит новые функции для генерации изображений и безопасности API
Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ
Отметки:AnthropicClaude AIБезопасность
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Зображення з сайту Pinterest
Pinterest представила новые функции для персонализации досок пользователей
28.10.2025
Adobe MAX
Adobe показала новые ИИ-инструменты для фото и видео
01.11.2025
Зображення Google
Google впервые показала телевизионную рекламу, созданную ИИ
02.11.2025
Google Translate
Google Translate позволяет выбирать между моделями перевода
04.11.2025
Изображение Google
Google запускает сервис Pomelli для создания рекламных кампаний с ИИ
30.10.2025

Читайте также

Изображение Anthropic
Новости

Anthropic запустила Claude Sonnet 4.5, для долгосрочной автономной работы

30.09.2025
Выбор моделей ChatGPT
Новости

ChatGPT автоматически выбирает более строгую модель в чувствительных разговорах

29.09.2025
365 Copilot
Новости

Новые модели Claude от Anthropic появились в 365 Copilot

25.09.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?