Китайская компания DeepSeek представила свою новую открытую ИИ-модель DeepSeek V3.1 с 685 миллиардами параметров, которая сразу стала популярной среди исследователей и разработчиков по всему миру. Модель появилась на платформе Hugging Face и доступна для загрузки бесплатно, что отличает её от продуктов американских лидеров отрасли, которые обычно требуют платного доступа через API.
DeepSeek V3.1 обрабатывает до 128 тысяч токенов в контексте, что позволяет модели работать с большими объемами текста, например, документами на сотни страниц. Она поддерживает различные форматы точности, включая BF16 и FP8, что позволяет разработчикам подстраивать её под свои технические нужды. В основе модели лежит гибридная архитектура, которая сочетает функции чата, кодирования и логических рассуждений в едином решении.
Тестирование показало, что DeepSeek V3.1 достигает 71,6% на известном бенчмарке Aider, что на 1% превышает показатель Claude Opus 4, но при этом она значительно дешевле в использовании. Особое внимание сообщество обратило на новые специальные токены в модели, которые позволяют интегрировать поиск в реальном времени и внутренние логические операции, что повышает её гибкость в различных задачах.
DeepSeek отказалась от разделения линеек моделей и теперь предлагает единую версию V3.1 для всех пользователей. Модель имеет размер около 700 ГБ, что требует мощных вычислительных ресурсов, но провайдеры облачных сервисов уже готовят решения для её размещения. Открытость и высокое качество DeepSeek V3.1 уже повлияли на распределение сил среди разработчиков ИИ, сделав передовые возможности доступными для более широкого круга пользователей.