Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Gemini 3 Pro возглавила тест точности моделей (но продолжает галлюцинировать)

Исследование Artificial Analysis показало высокие показатели ошибочных ответов даже среди лидеров рейтинга в шести областях знаний

Alex Dubenko
Alex Dubenko
Опубликовано: 23.11.2025
Новости
Галлюцинирующий мозг
Галлюцинирующий мозг. Иллюстрация: Craftium.AI, сгенерировано GPT-4o.
Поделиться:

Artificial Analysis представила результаты нового теста AA-Omniscience Benchmark, который выявил поразительные проблемы с точностью ответов у современных больших языковых ИИ-моделей. Среди 40 исследованных систем только четыре смогли получить положительный балл, а Gemini 3 Pro от Google уверенно возглавила рейтинг с 13 баллами на Omniscience Index. Для сравнения, ближайший преследователь Claude 4.1 Opus набрал 4.8 балла, а Grok 4, который ранее считался самым точным, отстал сразу на 14 пунктов.

Впервые Gemini 3 Pro показала значительное преимущество в точности, достигнув 53 процентов правильных ответов. Однако исследователи отметили, что даже лидеры рейтинга имеют чрезвычайно высокий уровень «галлюцинаций» – доли уверенных, но ошибочных ответов. У Gemini 3 Pro этот показатель достиг 88 процентов, что совпадает с предыдущими версиями, а у Grok 4 и GPT‑5.1 он тоже остается высоким – 64 и 81 процент соответственно.

AA-Omniscience Benchmark охватывает 6 тысяч вопросов из 42 категорий в шести ключевых областях, среди которых бизнес, гуманитарные и социальные науки, медицина, право, программная инженерия, а также наука и математика. Вопросы составлены на основе авторитетных источников и автоматически сгенерированы агентом ИИ. Новый индекс оценивания одинаково штрафует за ошибки и награждает за правильные ответы, что стимулирует модели избегать угадываний и снижает искусственную уверенность.

Читайте также

Claude Opus 4
Claude Opus 4.6 возглавила рейтинг анализа данных ИИ
Claude получил поддержку офисных приложений для работы в чате
Google запускает новые подписки Google AI Pro и Ultra

Исследование показало, что ни одна из моделей не обеспечивает стабильную точность во всех шести сферах. Claude 4.1 Opus лидирует в праве и инженерии программного обеспечения, GPT‑5.1.1 лучше всего отвечает на бизнес-вопросы, а Grok 4 выделяется в медицине и науке. В то же время даже большие модели, такие как Gemini 3 Pro, демонстрируют высокие показатели «галлюцинаций».

Artificial Analysis подчеркнула, что хотя размер модели часто коррелирует с точностью, он не гарантирует уменьшение количества ошибочных уверенных ответов. Несколько компактных моделей, включая Nemotron Nano 9B V2, обошли больших конкурентов за счет большей надежности. Для поддержки исследований команда опубликовала 10 процентов вопросов в открытом доступе, а остальное оставила приватным.

Grok от X ограничил создание изображений после скандала
Доля ChatGPT среди чатботов снижается из-за роста Gemini
Google презентовала быструю ИИ-модель Gemini 3 Flash для всех пользователей
Google Gemini добавляет визуальные материалы к Deep Research
Google обновила Gemini 2.5 для перевода аудио в Translate
Отметки:Claude AIGeminiGPTGrok
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

NotebookLM
Google добавляет персональные настройки в NotebookLM для пользователей
09.02.2026
Иллюстративное изображение
Amazon MGM Studios тестирует AI Studio для кинопроизводства
07.02.2026
Qwen
Alibaba выпустила Qwen 3.5 для автоматизации работы с приложениями
16.02.2026
Иллюстративное изображение
OpenAI презентовала GPT 5.3 Codex для автоматизации разработки
06.02.2026
Иллюстративное изображение
Seedance 2.0 создает волну видео со знаменитостями онлайн
16.02.2026

Читайте также

Иллюстративное изображение
Новости

Google представила обновленные модели Gemini 2.5 для синтеза голоса

11.12.2025
Gemini 3 Deep Think
Новости

Google запускает режим Deep Think для пользователей Gemini Ultra

05.12.2025
Claude Opus 4.5
Новости

Anthropic выпустила Claude Opus 4.5 с новыми возможностями

25.11.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?