Tencent представила систему ИИ Hunyuan-GameCraft , которая создает интерактивные видео из отдельных изображений. В отличие от обычных генераторов видео, Hunyuan-GameCraft позволяет пользователю управлять камерой в реальном времени с помощью клавиш WASD или стрелок. Это дает возможность свободно перемещаться в сгенерированных сценах и осматривать их с разных ракурсов.

Система работает на базе открытой модели HunyuanVideo и поддерживает перемещение вперед, назад, влево, вправо, вверх и вниз, а также вращение камеры влево и вправо. Каждый ход клавиш переводится в числовые значения, которые понимает видеогенератор. ИИ учитывает продолжительность нажатия, что влияет на скорость движения в сцене.
Для улучшения качества видео во время долгих сессий Tencent применила метод Hybrid History-Conditioned Training. Модель создает каждый новый фрагмент видео постепенно, опираясь на предыдущие кадры. Благодаря этому видео остается плавным и реагирует на действия пользователя без потери качества.
Hunyuan-GameCraft обучалась на более чем миллионе записей игрового процесса из ста известных игр, среди которых Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Дополнительно команда создала три тысячи двигательных последовательностей на основе 3D-объектов. Во время тестирования система показала более точное управление и лучшее качество изображения по сравнению с другими ИИ для камеры.
GameCraft работает со скоростью до 6,6 кадров в секунду в реальном времени и реагирует на действия пользователя менее чем за пять секунд. Весь код и веса модели доступны на GitHub, а вебдемо готовится к запуску. Система дополняет перечень ИИ для создания интерактивных миров, среди которых уже есть продукты от Google DeepMind и Skywork.