Компания JetBrains опубликовала свою первую открытую модель ИИ для генерации кода под названием «Mellum». Модель стала доступной для сообщества на платформе Hugging Face — это позволяет разработчикам интегрировать её в собственные инструменты и экспериментировать с ней в различных средах. Mellum была обучена на более чем четырех триллионах токенов и содержит четыре миллиарда параметров, а основное направление её применения — подсказки и дополнения кода на основе контекста.
JetBrains сообщает, что разработка Mellum длилась около двадцати дней с использованием двухсот пятидесяти шести графических процессоров Nvidia H200. Для обучения были использованы открытые датасеты, в частности код из GitHub с открытыми лицензиями и статьи англоязычной Википедии, а сама модель распространяется по лицензии Apache 2.0.
Mellum предназначена для интеграции в профессиональные инструменты разработчиков, создания ассистентов с подсказками для кода, исследования понимания и генерации кода, а также для образовательных целей и экспериментов с дообучением. На данный момент JetBrains предоставила несколько вариантов Mellum, дообученных специально для Python, но подчеркивает, что эти версии не предназначены для использования в производственных средах и служат скорее для оценки потенциала модели.
В компании отмечают, что Mellum может отображать определенные предвзятости, характерные для публичных кодовых баз, а также не гарантирует безопасность или отсутствие уязвимостей в сгенерированном коде. JetBrains подчеркивает, что цель заключается в создании сфокусированного инструмента, который может стать полезным для экспериментов и сотрудничества в сфере генеративного ИИ.