StreamDiT создает видео в реальном времени из текста

Новая система от Meta и UC Berkeley позволяет изменять сюжет ролика во время трансляции с помощью текстовых запросов

Опубликовано: 15.07.2025

Кадр из видео, сгенерированного в StreamDiT.

Исследователи из Meta и Калифорнийского университета в Беркли представили систему ИИ под названием StreamDiT, которая создает видео в прямом эфире на основе текстовых описаний. StreamDiT генерирует видео в реальном времени со скоростью 16 кадров в секунду, используя всего одну мощную видеокарту. Модель содержит 4 миллиарда параметров и обеспечивает разрешение 512p.

Изменение животного «на ходу»

StreamDiT отличается от предыдущих решений тем, что создает видео потоково, кадр за кадром, а не готовит весь ролик заранее. Благодаря этому система может отвечать на интерактивные запросы и изменять видео прямо во время трансляции.

Архитектура StreamDiT построена для быстрой обработки: система использует буфер, который позволяет одновременно работать над несколькими кадрами и постепенно улучшать их качество. Для достижения универсальности модель обучали на 3 тысячах качественных видео и большом наборе из 2,6 миллиона роликов.

StreamDiT показала лучшие результаты, чем другие модели, в частности ReuseDiffuse и FIFO diffusion, особенно для динамичных сцен. Оценщики отметили плавность движения, полноту анимации и качество изображения в коротких видео продолжительностью до восьми секунд. Команда тестировала и большую версию модели с 30 миллиардами параметров, которая обеспечила еще более высокое качество, хотя работала медленнее.

StreamDiT уже умеет генерировать минутные видео на ходу, отвечать на запросы пользователя и редактировать видео в реальном времени. Разработчики продолжают работу над улучшением памяти модели и сглаживанием переходов между фрагментами видео.

Отметки:Meta Генерация видео

Комментариев нет

StreamDiT создает видео в реальном времени из текста

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

OpenAI запустила модель Sora 2, которая позволяет создавать видео со звуком

Новый ИИ Gemini 2.5 Computer Use от Google оптимизирует работу с браузерами

Gemini 2.5 Flash Image открыто для общего доступа

Новые аватары Copilot добавляют эмоции к голосовым разговорам

Nano Banana позволяет создавать изображения в Gemini и Google Lens

Навигация

Полезное

Читайте также

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!