На прошлой неделе китайская лаборатория DeepSeek представила обновленную версию своей ИИ-модели R1-0528. Однако вокруг модели сразу разгорелись горячие дискуссии — разработчик из Мельбурна Сэм Пейч обнародовал доказательства, что модель DeepSeek могла обучаться на данных, полученных от Google Gemini, в частности повторяя характерные для Gemini слова и выражения. Похожие наблюдения сделал и создатель «SpeechMap», отметив, что «мысли», которые генерирует R1-0528 во время работы, очень напоминают Gemini.
Это не первый случай, когда DeepSeek подозревают в использовании данных конкурентов для тренировки своих моделей. Еще в декабре прошлого года разработчики заметили, что одна из предыдущих версий DeepSeek часто идентифицировала себя как ChatGPT, что могло свидетельствовать об обучении на чат-логах этой платформы. OpenAI ранее сообщала о выявлении следов так называемой дистилляции — метода, когда новая модель обучается на результатах работы более мощных систем, и связывала это с DeepSeek. В конце прошлого года Microsoft зафиксировала массовое выведение данных через аккаунты разработчиков OpenAI, которые, по подозрению компании, были связаны с DeepSeek.
На фоне таких обвинений ведущие игроки рынка ИИ усиливают меры безопасности. С апреля OpenAI требует подтверждения личности организаций, которые используют продвинутые модели, причем Китай в списке поддерживаемых стран отсутствует. Google и Anthropic тоже начали внедрять дополнительные ограничения — обе компании теперь «обобщают» следы своих моделей, чтобы усложнить обучение конкурентов на этих данных.
Несмотря на это, некоторые эксперты отрасли не исключают, что DeepSeek действительно могла использовать данные Google Gemini для создания своей модели. Исследователь Nathan Lambert отметил, что при недостатке GPU и наличии достаточного финансирования, компания вполне могла генерировать большие объемы синтетических данных на основе лучших доступных моделей, чтобы получить дополнительные вычислительные возможности.