Китайский стартап DeepSeek представил обновленную версию своей языковой модели R1 на платформе Hugging Face, вызвав настоящий фурор в сообществе ИИ. Обновление, получившее название R1-0528, отмечается впечатляющим размером — шестьсот восемьдесят пять миллиардов параметров, но при этом модель доступна по открытой лицензии MIT, что позволяет её свободное коммерческое использование.
DeepSeek также выпустила более компактную «дистиллированную» версию модели — DeepSeek-R1-0528-Qwen3-8B, которая базируется на Qwen3-8B от Alibaba. Несмотря на меньший размер, эта модель демонстрирует блестящие результаты: она опережает Google Gemini 2.5 Flash на сложных математических задачах AIME 2025 и почти сравнивается с Microsoft Phi 4 reasoning plus на тестах по другим навыкам. При этом DeepSeek-R1-0528-Qwen3-8B значительно менее требовательна к вычислительным ресурсам, что открывает новые возможности для разработчиков и компаний.
Однако независимые тесты показали, что R1-0528 стала заметно строже к контенту на политические темы, которые считаются чувствительными для китайских властей. Известно, что модель часто избегает ответов на вопросы о Синьцзяне, а также в ряде случаев повторяет официальную позицию правительства, даже если речь идет о нарушении прав человека. Разработчики отмечают, что это наиболее цензурированная версия DeepSeek, которую когда-либо выпускали.
DeepSeek уже не впервые оказывается в центре внимания из-за жестких ограничений в своих моделях. Компания подчеркивает научный и промышленный потенциал новых решений, однако вопрос о степени независимости их моделей вызывает активное обсуждение в мировом сообществе разработчиков ИИ.