В мире генеративного ИИ появился новый подход к оценке возможностей моделей — использование игры Minecraft. Сайт Minecraft Benchmark (MC-Bench) предлагает пользователям оценивать, насколько успешно модели ИИ выполняют задачи по созданию виртуальных объектов в этой популярной игре. Пользователи могут голосовать за лучший результат, а после голосования узнают, какая именно модель создала объект.
Идея использования Minecraft для тестирования ИИ принадлежит ученику двенадцатого класса Ади Сингу. Он отмечает, что знакомство с игрой помогает людям легче оценивать прогресс в развитии ИИ. Minecraft является самой продаваемой видеоигрой всех времен, и даже те, кто никогда не играл в нее, могут оценить качество созданных объектов.
Проект MC-Bench поддерживается такими компаниями, как Anthropic, Google, OpenAI и Alibaba, которые предоставляют свои продукты для тестирования, хотя формально не являются частью проекта. По словам Синга, пока проект сосредоточен на простых задачах, но в перспективе может расшириться на более сложные и целенаправленные задачи.
Другие игры, такие как Pokémon Red и Street Fighter, также используются для оценки ИИ, поскольку традиционные методы тестирования часто предоставляют моделям преимущества. MC-Bench отличается тем, что оценка основывается на визуальном качестве объектов, что делает проект привлекательным для широкой аудитории и позволяет собрать больше данных об эффективности моделей.