Google презентовала предварительную версию своей новой генеративной ИИ-модели Gemini 2.5 Flash, которая уже доступна для тестирования через Gemini API, Google AI Studio и Vertex AI. Модель ориентирована на разработчиков и команды, которым нужна обработка больших объемов запросов в чатах или создание решений для работы в реальном времени. Gemini 2.5 Flash поддерживает текст, изображения, видео и аудио, а также обеспечивает контекстное окно до одного миллиона токенов.
Gemini 2.5 Flash just dropped. ⚡
— Google DeepMind (@GoogleDeepMind) April 17, 2025
As a hybrid reasoning model, you can control how much it ‘thinks’ depending on your 💰 — making it ideal for tasks like building chat apps, extracting data and more.
Try an early version in @Google AI Studio → https://t.co/iZJNqQmooH pic.twitter.com/gUKbK5x3yZ
В этой модели внедрен гибридный режим работы — разработчики могут самостоятельно определять уровень «мышления» модели, то есть сколько ресурсов она будет тратить на анализ запроса. Это позволяет оптимизировать баланс между скоростью, качеством ответа и стоимостью использования. Если включить расширенное мышление, стоимость выходных токенов возрастает с шестидесяти центов до трех долларов пятидесяти центов за миллион токенов, а разработчики могут задавать лимит «thinking_budget» от нуля до двадцати четырех тысяч пятисот семидесяти шести токенов.
Gemini 2.5 Flash демонстрирует высокую продуктивность в сложных задачах, уступая только Gemini 2.5 Pro на тесте Hard Prompts. На альтернативном бенчмарке Humanity’s Last Exam эта модель опередила конкурентов, таких как Claude 3.7 Sonnet и DeepSeek R1, однако уступила OpenAI o4-mini. Отмечается, что для простых запросов модель самостоятельно определяет, требуется ли дополнительное мышление, что позволяет экономить время и ресурсы.
Новая модель особенно полезна для создания чат-ботов, инструментов для автоматизированного извлечения данных и других решений, где важны скорость обработки и контроль затрат. Google подчеркивает, что Gemini 2.5 Flash — наиболее экономичная в своей линейке, а ее функциональность будет расширяться в процессе тестирования до общего доступа.