Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Anthropic запустила тестирование безопасности системы Claude для пользователей

Участники могут проверить надежность защиты Claude, отвечая на сложные вопросы о опасном контенте

Eleni Karasidi
Eleni Karasidi
Опубликовано: 06.02.2025
Новости
Anthropic
Изображение Anthropic
Поделиться:

Компания Anthropic представила новый демонстрационный инструмент для проверки своей системы безопасности «Constitutional Classifiers». Эта система призвана защитить модель Claude от универсальных взломов. Демонстрация стартовала третьего февраля 2025 года и приглашает пользователей проверить надежность защиты Claude, пытаясь обойти её защитные механизмы.

New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.

We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA

— Anthropic (@AnthropicAI) February 3, 2025

Участникам предлагают ответить на десять «запрещенных» вопросов, касающихся химического, биологического, радиационного и ядерного контента. «Constitutional Classifiers» используют принципы «Constitutional AI» для фильтрации вредоносных запросов и ответов. Система обучается на синтетических данных, чтобы отличать безвредные запросы от опасных, например, различать запрос на рецепт горчицы от запроса на горчичный газ.

Читайте также

Claude Opus 4
Claude Opus 4.6 возглавила рейтинг анализа данных ИИ
Claude получил поддержку офисных приложений для работы в чате
Grok от X ограничил создание изображений после скандала

Тесты, проведенные Anthropic, показали, что система снизила успешность взломов с 86% (для незащищенной модели) до 4,4%. В то же время, отказы на безопасные запросы выросли всего на 0,38%. Стоимость вычислений увеличилась на 23,7%, но компания работает над оптимизацией этого показателя.

Anthropic, основанная Дарио и Даниэлой Амодеи, специализируется на создании безопасных и надежных ИИ-систем. Claude — это их главная модель чат-бота, известная высокой точностью и безопасностью. Приглашая общественность к тестированию своей системы, Anthropic стремится проверить её в реальных условиях и собрать данные для дальнейшего совершенствования.

OpenAI готовит «взрослый» режим для ChatGPT в 2026 году
Исследование: ИИ не признает ошибки, выдумывая вместо этого фейковые факты
Anthropic выпустила Claude Opus 4.5 с новыми возможностями
Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)
ИИ модели научились эффективно копировать стиль писателей
Отметки:AnthropicClaude AIБезопасность
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

NotebookLM
Google добавляет персональные настройки в NotebookLM для пользователей
09.02.2026
Qwen
Alibaba выпустила Qwen 3.5 для автоматизации работы с приложениями
16.02.2026
Иллюстративное изображение
Amazon MGM Studios тестирует AI Studio для кинопроизводства
07.02.2026
Иллюстративное изображение
OpenAI презентовала GPT 5.3 Codex для автоматизации разработки
06.02.2026
Иллюстративное изображение
Seedance 2.0 создает волну видео со знаменитостями онлайн
16.02.2026

Читайте также

Иллюстрация: Craftium
Новости

ChatGPT и другие боты — новые мастера социального подхалимства?

26.10.2025
Claude Haiku 4.5
Новости

Anthropic выпустила быструю модель Claude Haiku 4.5 для бизнеса

16.10.2025
Sam Altman
Новости

Пользователи ChatGPT смогут выбирать эротический тон ответов

15.10.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?