Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)

Исследование Artificial Analysis показало высокие показатели ошибочных ответов даже среди лидеров рейтинга в шести областях знаний

Alex Dubenko

Опубликовано: 23.11.2025

Новости

Artificial Analysis представила результаты нового теста AA-Omniscience Benchmark, который выявил поразительные проблемы с точностью ответов у современных больших языковых ИИ-моделей. Среди 40 исследованных систем только четыре смогли получить положительный балл, а Gemini 3 Pro от Google уверенно возглавила рейтинг с 13 баллами на Omniscience Index. Для сравнения, ближайший преследователь Claude 4.1 Opus набрал 4.8 балла, а Grok 4, который ранее считался самым точным, отстал сразу на 14 пунктов.

Впервые Gemini 3 Pro показала значительное преимущество в точности, достигнув 53 процентов правильных ответов. Однако исследователи отметили, что даже лидеры рейтинга имеют чрезвычайно высокий уровень «галлюцинаций» – доли уверенных, но ошибочных ответов. У Gemini 3 Pro этот показатель достиг 88 процентов, что совпадает с предыдущими версиями, а у Grok 4 и GPT‑5.1 он тоже остается высоким – 64 и 81 процент соответственно.

AA-Omniscience Benchmark охватывает 6 тысяч вопросов из 42 категорий в шести ключевых областях, среди которых бизнес, гуманитарные и социальные науки, медицина, право, программная инженерия, а также наука и математика. Вопросы составлены на основе авторитетных источников и автоматически сгенерированы агентом ИИ. Новый индекс оценивания одинаково штрафует за ошибки и награждает за правильные ответы, что стимулирует модели избегать угадываний и снижает искусственную уверенность.

Исследование показало, что ни одна из моделей не обеспечивает стабильную точность во всех шести сферах. Claude 4.1 Opus лидирует в праве и инженерии программного обеспечения, GPT‑5.1.1 лучше всего отвечает на бизнес-вопросы, а Grok 4 выделяется в медицине и науке. В то же время даже большие модели, такие как Gemini 3 Pro, демонстрируют высокие показатели «галлюцинаций».

Artificial Analysis подчеркнула, что хотя размер модели часто коррелирует с точностью, он не гарантирует уменьшение количества ошибочных уверенных ответов. Несколько компактных моделей, включая Nemotron Nano 9B V2, обошли больших конкурентов за счет большей надежности. Для поддержки исследований команда опубликовала 10 процентов вопросов в открытом доступе, а остальное оставила приватным.

Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

ИИ модели научились эффективно копировать стиль писателей

Pinterest представила новые функции для персонализации досок пользователей

Adobe показала новые ИИ-инструменты для фото и видео

Google впервые показала телевизионную рекламу, созданную ИИ

Google Translate позволяет выбирать между моделями перевода

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!