Исследователи из Meta и Калифорнийского университета в Беркли представили систему ИИ под названием StreamDiT, которая создает видео в прямом эфире на основе текстовых описаний. StreamDiT генерирует видео в реальном времени со скоростью 16 кадров в секунду, используя всего одну мощную видеокарту. Модель содержит 4 миллиарда параметров и обеспечивает разрешение 512p.
StreamDiT отличается от предыдущих решений тем, что создает видео потоково, кадр за кадром, а не готовит весь ролик заранее. Благодаря этому система может отвечать на интерактивные запросы и изменять видео прямо во время трансляции.
Архитектура StreamDiT построена для быстрой обработки: система использует буфер, который позволяет одновременно работать над несколькими кадрами и постепенно улучшать их качество. Для достижения универсальности модель обучали на 3 тысячах качественных видео и большом наборе из 2,6 миллиона роликов.
StreamDiT показала лучшие результаты, чем другие модели, в частности ReuseDiffuse и FIFO diffusion, особенно для динамичных сцен. Оценщики отметили плавность движения, полноту анимации и качество изображения в коротких видео продолжительностью до восьми секунд. Команда тестировала и большую версию модели с 30 миллиардами параметров, которая обеспечила еще более высокое качество, хотя работала медленнее.
StreamDiT уже умеет генерировать минутные видео на ходу, отвечать на запросы пользователя и редактировать видео в реальном времени. Разработчики продолжают работу над улучшением памяти модели и сглаживанием переходов между фрагментами видео.