Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)

Исследование Artificial Analysis показало высокие показатели ошибочных ответов даже среди лидеров рейтинга в шести областях знаний

Alex Dubenko
Alex Dubenko
Опубликовано: 23.11.2025
Новости
Галлюцинирующий мозг
Галлюцинирующий мозг. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Artificial Analysis представила результаты нового теста AA-Omniscience Benchmark, который выявил поразительные проблемы с точностью ответов у современных больших языковых ИИ-моделей. Среди 40 исследованных систем только четыре смогли получить положительный балл, а Gemini 3 Pro от Google уверенно возглавила рейтинг с 13 баллами на Omniscience Index. Для сравнения, ближайший преследователь Claude 4.1 Opus набрал 4.8 балла, а Grok 4, который ранее считался самым точным, отстал сразу на 14 пунктов.

Впервые Gemini 3 Pro показала значительное преимущество в точности, достигнув 53 процентов правильных ответов. Однако исследователи отметили, что даже лидеры рейтинга имеют чрезвычайно высокий уровень «галлюцинаций» – доли уверенных, но ошибочных ответов. У Gemini 3 Pro этот показатель достиг 88 процентов, что совпадает с предыдущими версиями, а у Grok 4 и GPT‑5.1 он тоже остается высоким – 64 и 81 процент соответственно.

AA-Omniscience Benchmark охватывает 6 тысяч вопросов из 42 категорий в шести ключевых областях, среди которых бизнес, гуманитарные и социальные науки, медицина, право, программная инженерия, а также наука и математика. Вопросы составлены на основе авторитетных источников и автоматически сгенерированы агентом ИИ. Новый индекс оценивания одинаково штрафует за ошибки и награждает за правильные ответы, что стимулирует модели избегать угадываний и снижает искусственную уверенность.

Читайте также

Grok
Grok от X ограничил создание изображений после скандала
Доля ChatGPT среди чатботов снижается из-за роста Gemini
Google презентовала быструю ИИ-модель Gemini 3 Flash для всех пользователей

Исследование показало, что ни одна из моделей не обеспечивает стабильную точность во всех шести сферах. Claude 4.1 Opus лидирует в праве и инженерии программного обеспечения, GPT‑5.1.1 лучше всего отвечает на бизнес-вопросы, а Grok 4 выделяется в медицине и науке. В то же время даже большие модели, такие как Gemini 3 Pro, демонстрируют высокие показатели «галлюцинаций».

Artificial Analysis подчеркнула, что хотя размер модели часто коррелирует с точностью, он не гарантирует уменьшение количества ошибочных уверенных ответов. Несколько компактных моделей, включая Nemotron Nano 9B V2, обошли больших конкурентов за счет большей надежности. Для поддержки исследований команда опубликовала 10 процентов вопросов в открытом доступе, а остальное оставила приватным.

Google Gemini добавляет визуальные материалы к Deep Research
Google обновила Gemini 2.5 для перевода аудио в Translate
Google представила обновленные модели Gemini 2.5 для синтеза голоса
Google запускает режим Deep Think для пользователей Gemini Ultra
Anthropic выпустила Claude Opus 4.5 с новыми возможностями
Отметки:Claude AIGeminiGPTGrok
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

ИИ-художник Иллюстрация: Craftium
OpenAI обновила GPT Image 1.5 для ChatGPT с новыми возможностями редактирования
17.12.2025
Firefly
Adobe Firefly получил текстовый видеоредактор и новые модели ИИ
16.12.2025
ChatGPT
ChatGPT получил новые гибкие настройки персонализации ответов
21.12.2025
Meta
Meta работает над новыми ИИ-моделями для работы с контентом
19.12.2025
Qwen
Модель Alibaba может клонировать голос с 3 секунд аудио
24.12.2025

Читайте также

Gemini 3
Новости

Gemini 3 стартовал с рекордной популярностью, но не без огрехов

24.11.2025
Nano Banana Pro
Новости

Google запускает Nano Banana Pro для генерации изображений высокого качества

20.11.2025
Gemini 3
Новости

Google начала запуск модели Gemini 3 Pro

18.11.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?