Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Anthropic запустила тестирование безопасности системы Claude для пользователей

Участники могут проверить надежность защиты Claude, отвечая на сложные вопросы о опасном контенте

Eleni Karasidi
Eleni Karasidi
Опубликовано: 06.02.2025
Новости
Anthropic
Изображение Anthropic
Поделиться:

Компания Anthropic представила новый демонстрационный инструмент для проверки своей системы безопасности «Constitutional Classifiers». Эта система призвана защитить модель Claude от универсальных взломов. Демонстрация стартовала третьего февраля 2025 года и приглашает пользователей проверить надежность защиты Claude, пытаясь обойти её защитные механизмы.

New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.

We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA

— Anthropic (@AnthropicAI) February 3, 2025

Участникам предлагают ответить на десять «запрещенных» вопросов, касающихся химического, биологического, радиационного и ядерного контента. «Constitutional Classifiers» используют принципы «Constitutional AI» для фильтрации вредоносных запросов и ответов. Система обучается на синтетических данных, чтобы отличать безвредные запросы от опасных, например, различать запрос на рецепт горчицы от запроса на горчичный газ.

Читайте также

Grok
Grok от X ограничил создание изображений после скандала
OpenAI готовит «взрослый» режим для ChatGPT в 2026 году
Исследование: ИИ не признает ошибки, выдумывая вместо этого фейковые факты

Тесты, проведенные Anthropic, показали, что система снизила успешность взломов с 86% (для незащищенной модели) до 4,4%. В то же время, отказы на безопасные запросы выросли всего на 0,38%. Стоимость вычислений увеличилась на 23,7%, но компания работает над оптимизацией этого показателя.

Anthropic, основанная Дарио и Даниэлой Амодеи, специализируется на создании безопасных и надежных ИИ-систем. Claude — это их главная модель чат-бота, известная высокой точностью и безопасностью. Приглашая общественность к тестированию своей системы, Anthropic стремится проверить её в реальных условиях и собрать данные для дальнейшего совершенствования.

Anthropic выпустила Claude Opus 4.5 с новыми возможностями
Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)
ИИ модели научились эффективно копировать стиль писателей
ChatGPT и другие боты — новые мастера социального подхалимства?
Anthropic выпустила быструю модель Claude Haiku 4.5 для бизнеса
Отметки:AnthropicClaude AIБезопасность
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Gemini
Google презентовала быструю ИИ-модель Gemini 3 Flash для всех пользователей
18.12.2025
ИИ-художник Иллюстрация: Craftium
OpenAI обновила GPT Image 1.5 для ChatGPT с новыми возможностями редактирования
17.12.2025
ChatGPT
ChatGPT получил новые гибкие настройки персонализации ответов
21.12.2025
Meta
Meta работает над новыми ИИ-моделями для работы с контентом
19.12.2025
Qwen
Модель Alibaba может клонировать голос с 3 секунд аудио
24.12.2025

Читайте также

Sam Altman
Новости

Пользователи ChatGPT смогут выбирать эротический тон ответов

15.10.2025
OpenAI
Новости

OpenAI готовит новые функции для генерации изображений и безопасности API

06.10.2025
Claude Sonnet
Новости

Claude Sonnet 4.5 выявляет тестирование и повышает безопасность ИИ

05.10.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?