Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)

Исследование Artificial Analysis показало высокие показатели ошибочных ответов даже среди лидеров рейтинга в шести областях знаний

Alex Dubenko
Alex Dubenko
Опубликовано: 23.11.2025
Новости
Галлюцинирующий мозг
Галлюцинирующий мозг. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Artificial Analysis представила результаты нового теста AA-Omniscience Benchmark, который выявил поразительные проблемы с точностью ответов у современных больших языковых ИИ-моделей. Среди 40 исследованных систем только четыре смогли получить положительный балл, а Gemini 3 Pro от Google уверенно возглавила рейтинг с 13 баллами на Omniscience Index. Для сравнения, ближайший преследователь Claude 4.1 Opus набрал 4.8 балла, а Grok 4, который ранее считался самым точным, отстал сразу на 14 пунктов.

Впервые Gemini 3 Pro показала значительное преимущество в точности, достигнув 53 процентов правильных ответов. Однако исследователи отметили, что даже лидеры рейтинга имеют чрезвычайно высокий уровень «галлюцинаций» – доли уверенных, но ошибочных ответов. У Gemini 3 Pro этот показатель достиг 88 процентов, что совпадает с предыдущими версиями, а у Grok 4 и GPT‑5.1 он тоже остается высоким – 64 и 81 процент соответственно.

AA-Omniscience Benchmark охватывает 6 тысяч вопросов из 42 категорий в шести ключевых областях, среди которых бизнес, гуманитарные и социальные науки, медицина, право, программная инженерия, а также наука и математика. Вопросы составлены на основе авторитетных источников и автоматически сгенерированы агентом ИИ. Новый индекс оценивания одинаково штрафует за ошибки и награждает за правильные ответы, что стимулирует модели избегать угадываний и снижает искусственную уверенность.

Читайте также

Claude Opus 4.5
Anthropic выпустила Claude Opus 4.5 с новыми возможностями
Gemini 3 стартовал с рекордной популярностью, но не без огрехов
Google запускает Nano Banana Pro для генерации изображений высокого качества

Исследование показало, что ни одна из моделей не обеспечивает стабильную точность во всех шести сферах. Claude 4.1 Opus лидирует в праве и инженерии программного обеспечения, GPT‑5.1.1 лучше всего отвечает на бизнес-вопросы, а Grok 4 выделяется в медицине и науке. В то же время даже большие модели, такие как Gemini 3 Pro, демонстрируют высокие показатели «галлюцинаций».

Artificial Analysis подчеркнула, что хотя размер модели часто коррелирует с точностью, он не гарантирует уменьшение количества ошибочных уверенных ответов. Несколько компактных моделей, включая Nemotron Nano 9B V2, обошли больших конкурентов за счет большей надежности. Для поддержки исследований команда опубликовала 10 процентов вопросов в открытом доступе, а остальное оставила приватным.

Google начала запуск модели Gemini 3 Pro
Google Gemini получил функцию загрузки нескольких изображений для видео
Google открыл бесплатный доступ к функциям Gemini в Vids
Grok 4.1 от xAI стала доступной всем пользователям бесплатно
Google выпустит Gemini 3 и Nano Banana Pro в ноябре
Отметки:Claude AIGeminiGPTGrok
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Иллюстрация: Craftium
ИИ модели научились эффективно копировать стиль писателей
27.10.2025
Зображення з сайту Pinterest
Pinterest представила новые функции для персонализации досок пользователей
28.10.2025
Adobe MAX
Adobe показала новые ИИ-инструменты для фото и видео
01.11.2025
Зображення Google
Google впервые показала телевизионную рекламу, созданную ИИ
02.11.2025
Google Translate
Google Translate позволяет выбирать между моделями перевода
04.11.2025

Читайте также

Creative Canvas
Новости

Google тестирует Creative Canvas и Visual Layout в Gemini

15.11.2025
SIMA
Новости

Google DeepMind презентовала SIMA 2 для сложных игровых задач

15.11.2025
Главная страница Википедии
Новости

Wikimedia требует от ИИ-компаний надлежащего использования Wikipedia

11.11.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?