Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • База знаний
  • Каталог
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2026 Craftium.AI.

Исследование выявило ограничения генеративного ИИ в исторических вопросах

Модели GPT-4, Llama и Gemini показали низкую точность на сложных исторических вопросах, особенно относительно недопредставленных регионов

Alex Dubenko
Alex Dubenko
Опубликовано: 21.01.2025
Новости
Футуристичний ШІ у розпачі
Иллюстративное изображение (DALL-E 3)
Поделиться:

Новые исследования выявили слабые места генеративного ИИ при ответе на сложные исторические вопросы. Команда исследователей проверила возможности трех ведущих моделей — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах с помощью нового бенчмарка Hist-LLM. Этот бенчмарк базируется на данных из глобальной исторической базы Seshat. Результаты, презентованные на конференции NeurIPS, показали, что даже лучшая модель — GPT-4 Turbo — достигла лишь 46% точности.

Читайте также

OpenAI запускает Prism для совместной работы над научными статьями
Скрытые подсказки для ИИ обнаружены в научных препринтах разных стран
Сэм Альтман: ИИ приближается к генерации идей

Исследователи из Complexity Science Hub в Австрии отметили, что модели ИИ хорошо справляются с базовыми фактами, но им не хватает глубины для решения более сложных вопросов, требующих детального понимания истории. Например, GPT-4 Turbo ошибочно утверждала, что в Древнем Египте была чешуйчатая броня, хотя она появилась там только через 1500 лет. Подобные ошибки могут быть следствием того, что модели ИИ чаще опираются на известные данные, чем на менее популярные факты.

Кроме того, исследование выявило, что модели OpenAI и Llama хуже справляются с вопросами, касающимися определенных регионов, например, субсахарской Африки. Это может свидетельствовать о наличии предвзятостей в учебных данных. Несмотря на это, исследователи надеются, что такие модели могут быть полезными для историков в будущем, особенно если улучшить бенчмарк, включив данные из недопредставленных регионов и усложнив вопросы.

Новые ИИ модели o3 и o4-mini часто ошибаются
Тестирование моделей ИИ в Minecraft для оценки возможностей
Искусственный интеллект испытали в классической игре Super Mario Bros
Новая модель Claude 3.7 Sonnet успешно играет в Pokémon
Новый тест для ИИ выявил неожиданные особенности моделей
Отметки:НаукаТестирование
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

NotebookLM
Google добавляет персональные настройки в NotebookLM для пользователей
09.02.2026
Qwen
Alibaba выпустила Qwen 3.5 для автоматизации работы с приложениями
16.02.2026
Иллюстративное изображение
Amazon MGM Studios тестирует AI Studio для кинопроизводства
07.02.2026
Claude Opus 4
Claude Opus 4.6 возглавила рейтинг анализа данных ИИ
09.02.2026
Иллюстративное изображение
OpenAI презентовала GPT 5.3 Codex для автоматизации разработки
06.02.2026

Читайте также

Pika Model 2.1
Новости

PikaLabs принимает заявки на раннее тестирование Model версии 2.1

24.01.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2026 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?