Используя этот сайт, вы соглашаетесь с нашей политикой конфиденциальности и условиями использования.
Accept
Craftium.AICraftium.AICraftium.AI
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Font ResizerAa
Craftium.AICraftium.AI
Font ResizerAa
Поиск
  • Главная
  • Новости
  • Каталог
  • Подборки
  • Блог
Следите за нами:
  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь
© 2024-2025 Craftium.AI.

Новые ИИ модели o3 и o4-mini часто ошибаются

Независимое тестирование показало, что эти reasoning-модели нередко придумывают действия и создают ложную информацию в ответах

Alex Dubenko
Alex Dubenko
Опубликовано: 22.04.2025
Новости
Model o3
Иллюстративное изображение
Поделиться:

OpenAI представила новые генеративные ИИ — o3 и o4-mini, которые уже успели привлечь внимание неожиданными результатами тестирования. По словам компании , эти модели имеют наивысшую производительность среди предшественников, однако исследования показали, что они также чаще создают ложные утверждения. Согласно официальному отчету, o4-mini ошиблась в сорока восьми процентах ответов — это втрое больше, чем у o1. Модель o3, несмотря на лучшую точность, все же генерировала ложную информацию в трети случаев, вдвое чаще, чем o1.

Особенно интригует то, что o3 и o4-mini принадлежат к так называемым reasoning-моделям, которые открыто демонстрируют пользователю логику своих действий. Однако независимая лаборатория Transluce заметила, что o3 часто придумывает действия, которые технически не может выполнить, например, симулирует запуск кода в среде программирования. Более того — когда пользователь ставит под сомнение такой ответ, модель начинает настойчиво оправдывать вымышленные действия, даже утверждая, что использует внешний компьютер для вычислений.

Читайте также

ChatGPT Pro
ChatGPT достиг 800 миллионов еженедельных пользователей
OpenAI добавила поддержку приложений непосредственно в ChatGPT
Sora 2 от OpenAI генерирует видео с ответами на вопросы

Transluce обратила внимание, что ложные утверждения относительно выполнения кода чаще появляются именно в o-серии моделей, чем в GPT-серии. Исследователи отметили, что повышенный уровень вымыслов в reasoning-моделях может быть связан с определенными дизайнерскими решениями, в частности использованием outcome-based reinforcement learning и отказом от сохранения цепочек рассуждений из предыдущих диалогов.

В то же время стало известно, что OpenAI существенно сократила объемы тестирования безопасности для новых моделей, включая o3. Хотя система защиты от так называемых джейлбрейков осталась почти на уровне o1, высокие показатели вымыслов вызывают удивление даже у специалистов. Компания подчеркивает, что проверка фактов остается ответственностью пользователя — особенно, если речь идет о новейших reasoning-моделях.

OpenAI готовит новые функции для генерации изображений и безопасности API
OpenAI улучшает свои приложения, добавляя в них социальные функции
OpenAI запустила модель Sora 2, которая позволяет создавать видео со звуком
ChatGPT автоматически выбирает более строгую модель в чувствительных разговорах
ChatGPT Pulse предлагает персонализированные ежедневные сводки на смартфоне
Отметки:OpenAIТестирование
Комментариев нет

Добавить комментарий Отменить ответ

Следи за нами

XСледовать
InstagramСледовать
YoutubeПодписаться
TelegramСледовать

Популярные новости

Claude can now create and edit files
Claude научился создавать и редактировать файлы прямо в интерфейсе
10.09.2025
Изображения, сгенерированные ИИ
Анимационный фильм Critterz создают с помощью GPT-5
08.09.2025
Логотип Genspark
Genspark выпустил браузер с бесплатным встроенным ИИ
14.09.2025
Изображение с сайта Anthropic
Claude научился автоматически запоминать детали разговоров пользователей
15.09.2025
Gemini
Google опубликовала лимиты для сервиса Gemini
08.09.2025

Читайте также

Зображення з сайту NVIDIA
Новости

OpenAI и Nvidia создадут масштабную инфраструктуру для ИИ будущего

23.09.2025
ИИ примеряет маски
Новости

ChatGPT получил новые опции персонализации для пользователей

18.09.2025
ChatGPT и Claude
Новости

ChatGPT помогает в быту, Claude автоматизирует бизнес-процессы

17.09.2025

Craftium AI — команда, которая пристально следит за развитием генеративного ИИ, применяет его в своем творчестве и охотно делится собственными открытиями.

Навигация

  • Новости
  • Обзоры
  • Подборки
  • Блог

Полезное

  • Правила пользования
  • Политика конфиденциальности
  • Авторские права
  • Обратная связь

Подписывайся на последние новости, полезные советы и гайды по ИИ.

Подписываясь, вы принимаете нашу политику конфиденциальности и условия использования.

Craftium.AICraftium.AI
Следите за нами:
© 2024-2025 Craftium.AI
Подписка
Прокачайся с AI!
Вдохновляйся важными новостями, полезными советами и детальными гайдами получая их прямо на свою почту.

Подписываясь, вы принимаете нашу Политику конфиденциальности и Условия использования.

Welcome Back!

Sign in to your account

Имя пользователя или eMail
Пароль

Забыли пароль?