Двадцать первого апреля ShengShu Technology презентовала Vidu Q1 — браузерную модель, которая позволяет пользователям создавать пятисекундные видео в формате 1080p на основе двух изображений и текстового описания. Благодаря подходу «First-to-Last Frame» движения в клипе остаются последовательными, даже если исходные изображения не связаны между собой, что открывает новые возможности для самостоятельного монтажа с плавными переходами между сценами.
В новой версии аудио интегрировано непосредственно в рабочий процесс — текстовые подсказки позволяют генерировать фоновую музыку или звуковые эффекты с частотой 48 кГц, добавлять многослойные дорожки продолжительностью до десяти секунд и использовать временные команды, например «0–2 с ветер». Это позволяет отказаться от внешних библиотек звуков и делает процесс монтажа быстрее.
Vidu Q1 также предлагает улучшенную генерацию аниме — с более четкими линиями и стабильным сочетанием кадров, основанным на методе сохранения целостности изображений, впервые представленном в Vidu 1.5. По внутренним тестам VBench, модель превосходит Runway Gen-2, OpenAI Sora и Luma Dream Machine по точности соответствия запросу и согласованности кадров.
Одной из первых компаний, протестировавших Vidu Q1, стала Aura Productions — она сообщила о снижении затрат на постпродакшн для аниме-сериала в пятьдесят серий в несколько раз. Модель объединяет мгновенные переходы между изображениями, быстрый рендеринг, усовершенствованное создание аниме и многослойное аудио, предоставляя малым командам и блогерам доступ к возможностям кинематографической обработки без необходимости в специалистах по визуальным эффектам или звуку.
ShengShu Technology, основанная в Сингапуре в две тысячи двадцать третьем году, специализируется на мультимодальных больших языковых моделях. После открытия платформы Vidu для коммерческих пользователей в июле две тысячи двадцать четвертого года, компания уже обслуживает создателей в более чем двухстах регионах и активно сотрудничает с киностудиями, рекламными агентствами и социальными медиа для внедрения новых функций Q1.