Artificial Analysis представила результаты нового теста AA-Omniscience Benchmark, который выявил поразительные проблемы с точностью ответов у современных больших языковых ИИ-моделей. Среди 40 исследованных систем только четыре смогли получить положительный балл, а Gemini 3 Pro от Google уверенно возглавила рейтинг с 13 баллами на Omniscience Index. Для сравнения, ближайший преследователь Claude 4.1 Opus набрал 4.8 балла, а Grok 4, который ранее считался самым точным, отстал сразу на 14 пунктов.
Впервые Gemini 3 Pro показала значительное преимущество в точности, достигнув 53 процентов правильных ответов. Однако исследователи отметили, что даже лидеры рейтинга имеют чрезвычайно высокий уровень «галлюцинаций» – доли уверенных, но ошибочных ответов. У Gemini 3 Pro этот показатель достиг 88 процентов, что совпадает с предыдущими версиями, а у Grok 4 и GPT‑5.1 он тоже остается высоким – 64 и 81 процент соответственно.
AA-Omniscience Benchmark охватывает 6 тысяч вопросов из 42 категорий в шести ключевых областях, среди которых бизнес, гуманитарные и социальные науки, медицина, право, программная инженерия, а также наука и математика. Вопросы составлены на основе авторитетных источников и автоматически сгенерированы агентом ИИ. Новый индекс оценивания одинаково штрафует за ошибки и награждает за правильные ответы, что стимулирует модели избегать угадываний и снижает искусственную уверенность.
Исследование показало, что ни одна из моделей не обеспечивает стабильную точность во всех шести сферах. Claude 4.1 Opus лидирует в праве и инженерии программного обеспечения, GPT‑5.1.1 лучше всего отвечает на бизнес-вопросы, а Grok 4 выделяется в медицине и науке. В то же время даже большие модели, такие как Gemini 3 Pro, демонстрируют высокие показатели «галлюцинаций».
Artificial Analysis подчеркнула, что хотя размер модели часто коррелирует с точностью, он не гарантирует уменьшение количества ошибочных уверенных ответов. Несколько компактных моделей, включая Nemotron Nano 9B V2, обошли больших конкурентов за счет большей надежности. Для поддержки исследований команда опубликовала 10 процентов вопросов в открытом доступе, а остальное оставила приватным.

