Компания NVIDIA представила новую ИИ-модель Fugatto, которая преобразует текстовые запросы для создания звуков, музыки и даже голосов. Эта модель является универсальным инструментом для работы со звуком, способным создавать или трансформировать любой аудиоконтент, от музыкальных отрывков до уникальных звуковых эффектов.
По словам разработчиков, Fugatto поддерживает широкий спектр задач — от добавления инструментов в уже существующую композицию до изменения акцента или эмоций в голосе. «Этот инструмент позволяет создавать абсолютно новые звуки буквально на лету», — отметил Идо Змешлани, продюсер и один из партнеров проекта.
Fugatto работает на основе генеративного трансформера с 2,5 миллиардами параметров. Его обучение проходило на суперкомпьютерах NVIDIA с использованием новейших GPU. Благодаря этому модель может не только выполнять задачи, на которых ее учили, но и генерировать новые, невиденные ранее звуковые ландшафты, например, плавный переход от грозы к пению птиц на рассвете.
Эта технология открывает множество возможностей для музыкантов, рекламных агентств, разработчиков игр и образовательных платформ. Она позволяет создавать звук в реальном времени, изменять эмоциональный контекст голосов и создавать уникальные звуковые эффекты, включая те, которых ранее не существовало.