Google объявила об обновлении моделей Gemini 2.5 Flash и Gemini 2.5 Pro для синтеза голоса, которые теперь доступны разработчикам через Gemini API в Google AI Studio. Эти модели созданы для приложений, где важна выразительность речи, например для озвучивания аудиокниг, учебных курсов, инструкций к продуктам, подкастов и многоголосых проектов.
Обновление добавило более широкий выбор эмоциональных стилей и тонов, более точное соблюдение стилистических подсказок, умное регулирование скорости чтения в зависимости от контекста и более стабильную поддержку нескольких голосов, которая теперь охватывает 24 языка. Модели заменили предыдущие версии, чтобы пользователи сразу получили доступ к более естественному синтезу речи.
Gemini 2.5 Flash TTS оптимизирована для быстрых интерактивных решений и подходит для приложений, где время отклика критично. Gemini 2.5 Pro TTS обеспечивает высокое качество голоса, что важно для проектов с высокими требованиями к звучанию. Пользователи могут детально управлять скоростью, тоном и идентичностью персонажей, а обновление улучшило многоязычность.
Партнеры уже используют эти модели для продвинутых функций, включая точную настройку диалогов и корректировку произношения или интонации. Ранние пользователи отметили возможность создавать кинематографические озвучивания для различных персонажей и языков.
Google предоставляет эти инструменты для разработчиков по всему миру через Google AI Studio, чтобы поддержать потребности в создании более реалистичного и гибкого синтеза речи для творческих и технических задач.

