Исследователи Apple опубликовали работу, которая вновь привлекла внимание к ограничениям современных генеративных моделей ИИ. В этом исследовании команда сосредоточилась на больших моделях для рассуждений, которые должны были выполнять сложные задачи, в частности решать логические головоломки наподобие «Башни Ханой» и «Переправа через реку». Результаты оказались неожиданно острыми — модели демонстрировали полный провал точности, когда сталкивались с действительно сложными задачами, даже если им предоставляли готовые алгоритмы для решения.
Исследование показало, что стандартные модели уверенно справляются с простыми задачами, а большие модели для рассуждений могут еще и детализировано разбивать проблему на шаги. Однако, как только сложность возрастала, оба типа моделей теряли способность находить правильные решения. Особенно неожиданным оказалось то, что вместо усиления усилий в сложных ситуациях, модели наоборот — уменьшали попытки рассуждать, что исследователи Apple назвали «особенно тревожным» феноменом.
В испытаниях были задействованы модели от ведущих компаний, в частности OpenAI, Google, Anthropic и DeepSeek. Исследователи подчеркнули, что потеря точности на сложных задачах возникала независимо от производителя и архитектуры. Более того, модели тратили вычислительные ресурсы на поиск правильных ответов в простых ситуациях, но с повышением сложности начинали пробовать ошибочные варианты, прежде чем случайно находили правильный.
Выводы Apple стали мощным сигналом для всей отрасли — в исследовании утверждается, что современные подходы к развитию ИИ, вероятно, столкнулись с фундаментальными пределами. Эксперты отметили, что эти результаты бросают вызов устоявшимся представлениям о возможностях генеративных моделей и ставят под сомнение перспективы достижения полноценного общего искусственного интеллекта в рамках нынешних технологий.