Илон Маск заявил, что компании, которые работают с искусственным интеллектом, исчерпали доступные данные для тренировки своих моделей. Это означает, что сумма человеческих знаний, доступная для обучения ИИ, уже использована. Маск, который основал собственную компанию xAI, подчеркнул, что единственный путь для дальнейшего развития — это использование синтетических данных, созданных самими моделями ИИ.
Синтетические данные уже активно используются ведущими технологическими компаниями. Например, Meta использует их для настройки своих моделей Llama, а Microsoft применяет их в Phi-4. Google и OpenAI также прибегают к этому методу для развития своих систем. Это позволяет не только экономить ресурсы, но и открывает новые возможности для самообучения моделей.
Однако синтетические данные имеют и свои недостатки. Исследования показывают, что они могут приводить к так называемому «коллапсу модели», когда ее креативность снижается, а предвзятости растут. Это может серьезно повлиять на функциональность модели, поскольку ИИ, создавая данные, может переносить на них собственные ограничения и предвзятости.
Маск также обратил внимание на проблему так называемых «галлюцинаций» ИИ, когда модели генерируют неточные или бессмысленные ответы. Это усложняет процесс использования синтетических данных, поскольку трудно определить, является ли ответ реалистичным или выдуманным. Этот вопрос становится все более актуальным, поскольку объем контента, созданного ИИ, растет, и он может быть использован для дальнейшего обучения моделей.