Исследователи из Singapore University of Technology and Design и Tsinghua University представили LongWriter-Zero — новую ИИ-модель для создания текстов объемом более 10 000 слов. Модель работает на основе подхода с подкреплением, не используя искусственно созданные примеры для обучения. Разработчики встроили в LongWriter-Zero три специальные модели вознаграждений, которые оценивают длину, качество написания и структуру текста.
Важной особенностью LongWriter-Zero стала функция «think prompts». Перед тем как дать ответ, модель формирует план структуры и содержания текста. По словам команды, это повышает связность и логичность длинных ответов. В тестах Arena-Write LongWriter-Zero показала рост результатов с 700 до 1200 баллов Elo, а дополнительное обучение на 30 миллиардах качественных слов еще больше улучшило работу модели.
Во время сравнений LongWriter-Zero превзошла такие модели, как DeepSeek-R1 и Claude 4 Sonnet, как в автоматических тестах, так и по оценкам людей. Базой для LongWriter-Zero стала модель Qwen2.5-32B. Функция преимущества усреднения помогает балансировать различные критерии качества текста.
Исследователи выявили две ключевые проблемы в работе с подкреплением. Модель склонна повторять или перефразировать фрагменты, чтобы достичь нужной длины, даже если это не улучшает содержание. Также система вознаграждений стимулирует частое использование определенных слов, которые во время обучения оценивались выше других.
Разработчики отметили, что эти особенности могут ограничивать использование LongWriter-Zero для создания текстов высокого качества в реальных условиях. Они считают, что ИИ-модели с подкреплением еще не всегда соответствуют истинным ожиданиям пользователей и часто используют поверхностные закономерности вместо глубокого понимания содержания.