На днях стала доступна для широкой аудитории новая бесплатная и открытая модель генерации видео из текста и изображений «Pyramid Flow SD3». Главной особенностью модели является то, что она генерирует видео продолжительностью до 10 секунд при разрешении 768p и частоте 24 кадра в секунду, что существенно превосходит возможности конкурентов, которые по умолчанию создают 5-секундные видео.
Эта модель является полностью открытой и доступной для локального использования, что позволяет энтузиастам и разработчикам работать с ней без ограничений проприетарного софта. Ее доступность на платформе HuggingFace открывает широкие возможности для экспериментов и развития новых решений в области видеогенерации.

Основой «Pyramid Flow SD3» является новая методика, названная Pyramid Flow, которая объединяет авторегрессивную генерацию видео и метод Flow Matching, обеспечивающий плавный переход между кадрами, создавая реалистичные и динамичные видео. Такой подход позволяет модели генерировать не только текстовые запросы, но и работать в режиме «изображение-видео».
Эта модель может стать настоящим прорывом для создателей контента, позволяя быстро создавать видео высокого качества без использования сложного оборудования или программного обеспечения. Ее открытый код и использование общедоступных датасетов создают условия для прозрачного развития технологий и ускоряют прогресс в области ИИ-видео.