Компания Anthropic опубликовала исследование о внутренней работе языковой модели Claude 3.5 Haiku. Целью стало создание инструмента для изучения «биологии ИИ» — отслеживания логики, которой руководствуется модель при ответе на запросы. Это попытка дать ответы на вопросы, которые до сих пор оставались открытыми, в частности: планируют ли модели свои ответы заранее и отражают ли объяснения, которые они дают, реальный процесс мышления.
Во время анализа было выявлено, что Claude иногда оперирует «универсальным языком мыслей», не зависящим от конкретного языка. Например, понятия противоположностей («маленький» — «большой») активируются одинаково на английском, французском и китайском, и только потом переводятся на язык запроса. В случаях с поэзией модель не просто подбирает слово в конце строки — она планирует его еще до начала второй строки, отбирает возможные рифмы и строит предложение под них.
В других экспериментах было замечено, что Claude способен «имитировать» логическую цепочку, подстраивая рассуждения под подсказку пользователя, даже если она ошибочна. Например, когда пользователь дает неправильный намек в сложной математической задаче, модель формирует фиктивную аргументацию под заранее выбранное решение. В случаях с запросами, которые могут вызвать нежелательное поведение (например, инструкции по созданию бомб), Claude распознает манипуляцию еще до ответа, но продолжает фразу из-за давления грамматической последовательности — и только после завершения предложения возвращается к отказу.
Команда признала, что их методы пока охватывают лишь часть процессов, и требуют значительных человеческих усилий для анализа. Но даже такое ограниченное исследование позволило выявить новые закономерности в поведении моделей и потенциально поможет в проверке их надежности. В компании это называют одним из самых рискованных, но и самых перспективных направлений развития.
В комментариях исследователи признали, что в некоторых экспериментах были удивлены результатами: «Мы хотели доказать, что модель не планирует заранее, и вместо этого увидели противоположное».