В финальный день своего 12-дневного события компания OpenAI представила новую модель ИИ для когнитивных задач — o3, которая является преемницей модели o1. Вместе с ней был представлен компактный вариант — o3-mini, разработанный для выполнения специфических задач. Этот релиз обещает значительный прорыв в возможностях моделирования когнитивных процессов.
o3, наша последняя модель рассуждения, является прорывом, с значительным улучшением наших самых сложных бенчмарков. Мы начинаем тестирование на безопасность и работу красной команды сейчас. https://t.co/4XlK1iHxFK
— Грег Брокман (@gdb) 20 декабря 2024 г.
OpenAI заявляет, что o3, при определенных условиях, приближается к AGI — системе, способной выполнять большинство экономически важных задач, обычно выполняемых человеком. Хотя компания подчеркивает, что это еще не окончательный прорыв, результаты тестов модели o3 значительно превосходят предыдущие модели OpenAI. В тесте ARC-AGI, который оценивает способность ИИ осваивать новые навыки за пределами учебных данных, o3 получила 87,5% в режиме высоких вычислений, втрое превзойдя производительность o1 в самом низком режиме.
Модель достигла значительных результатов в различных тестах: 96,7% на Американском математическом экзамене 2024 года, 87,7% в GPQA Diamond, отвечая на вопросы уровня магистратуры по биологии, физике и химии, а также установила новый рекорд 25,2% в тесте Frontier Math от EpochAI. Несмотря на эти достижения, эксперты, такие как соавтор ARC-AGI Франсуа Шолле, предостерегают от переоценки этих результатов, указывая на проблемы o3 с выполнением простых задач и высокие затраты на использование ее передовых режимов.
Еще одним значительным улучшением в o3 является возможность настройки времени вычислений, что позволяет пользователям выбирать низкие, средние или высокие режимы в зависимости от сложности задачи. Модель использует процесс «приватной цепи мышления», что позволяет ей внутренне анализировать задачу, объяснять свой процесс и предоставлять более надежные результаты в таких областях, как физика, математика и программирование.
OpenAI признает потенциальные риски, связанные с o3, в связи с проблемами, выявленными в предыдущей модели. Команды OpenAI в настоящее время применяют методику «дискриминационного согласования» для обеспечения соответствия o3 принципам безопасности. Чтобы минимизировать риски, OpenAI сначала сделает доступной o3-mini для тестирования исследователями безопасности, в то время как o3 станет доступной позже в 2025 году. Генеральный директор Сэм Альтман также выступает за создание федеральной системы тестирования для оценки потенциального влияния таких моделей.