MiniMax объявила о выпуске MiniMax-01 Series 2, включающей обновления в их линейке моделей ИИ, в частности MiniMax-Text-01. MiniMax-Text-01 является современной языковой моделью типа Mixture of Experts (MoE) с 456 миллиардами параметров, из которых 45,9 миллиарда активируются на каждый токен.

Модель использует гибридный механизм внимания, объединяя Lightning Attention и Softmax Attention для оптимизации работы. Она поддерживает значительную длину контекста, с возможностью тренировки до одного миллиона токенов и обработки до четырех миллионов токенов. Это делает ее пригодной для задач, требующих глубокого понимания контекста и работы с длинными текстами. Кроме того, использование Rotary Position Embedding (RoPE) улучшает позиционное кодирование, обеспечивая эффективную обработку сложных данных.
Модель MiniMax-01 теперь с открытым исходным кодом, что делает ее доступной для широкого круга пользователей. Основные характеристики включают 80 слоев с чередованием механизмов внимания, 32 эксперта в рамках MoE, скрытый размер 6144 и размер словаря в 200 064 токена. Модели MiniMax-01 Series 2 демонстрируют конкурентоспособность по сравнению с другими ведущими системами ИИ, такими как Qwen и DS3, особенно в тестах на понимание длинного контекста.