Исследование выявило ограничения генеративного ИИ в исторических вопросах

Модели GPT-4, Llama и Gemini показали низкую точность на сложных исторических вопросах, особенно относительно недопредставленных регионов

Alex Dubenko

Опубликовано: 21.01.2025

Новости

Иллюстративное изображение (DALL-E 3)

Новые исследования выявили слабые места генеративного ИИ при ответе на сложные исторические вопросы. Команда исследователей проверила возможности трех ведущих моделей — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах с помощью нового бенчмарка Hist-LLM. Этот бенчмарк базируется на данных из глобальной исторической базы Seshat. Результаты, презентованные на конференции NeurIPS, показали, что даже лучшая модель — GPT-4 Turbo — достигла лишь 46% точности.

Исследователи из Complexity Science Hub в Австрии отметили, что модели ИИ хорошо справляются с базовыми фактами, но им не хватает глубины для решения более сложных вопросов, требующих детального понимания истории. Например, GPT-4 Turbo ошибочно утверждала, что в Древнем Египте была чешуйчатая броня, хотя она появилась там только через 1500 лет. Подобные ошибки могут быть следствием того, что модели ИИ чаще опираются на известные данные, чем на менее популярные факты.

Кроме того, исследование выявило, что модели OpenAI и Llama хуже справляются с вопросами, касающимися определенных регионов, например, субсахарской Африки. Это может свидетельствовать о наличии предвзятостей в учебных данных. Несмотря на это, исследователи надеются, что такие модели могут быть полезными для историков в будущем, особенно если улучшить бенчмарк, включив данные из недопредставленных регионов и усложнив вопросы.

Отметки:Наука Тестирование

Комментариев нет

Исследование выявило ограничения генеративного ИИ в исторических вопросах

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Genspark выпустил браузер с бесплатным встроенным ИИ

Claude научился автоматически запоминать детали разговоров пользователей

Новый «reasoning» Ray3 от Luma AI генерирует видео в 4K HDR качестве

Suno v5: еще более естественное звучание и полный контроль над треком

ChatGPT получил новые опции персонализации для пользователей

Навигация

Полезное