«Антропик» заглядывает в мысли ИИ: как модели на самом деле рассуждают

Исследования показали, что Claude мыслит на концептуальном уровне и адаптируется к запросам

Опубликовано: 02.04.2025

Иллюстративное изображение

Компания Anthropic опубликовала исследование о внутренней работе языковой модели Claude 3.5 Haiku. Целью стало создание инструмента для изучения «биологии ИИ» — отслеживания логики, которой руководствуется модель при ответе на запросы. Это попытка дать ответы на вопросы, которые до сих пор оставались открытыми, в частности: планируют ли модели свои ответы заранее и отражают ли объяснения, которые они дают, реальный процесс мышления.

Во время анализа было выявлено, что Claude иногда оперирует «универсальным языком мыслей», не зависящим от конкретного языка. Например, понятия противоположностей («маленький» — «большой») активируются одинаково на английском, французском и китайском, и только потом переводятся на язык запроса. В случаях с поэзией модель не просто подбирает слово в конце строки — она планирует его еще до начала второй строки, отбирает возможные рифмы и строит предложение под них.

В других экспериментах было замечено, что Claude способен «имитировать» логическую цепочку, подстраивая рассуждения под подсказку пользователя, даже если она ошибочна. Например, когда пользователь дает неправильный намек в сложной математической задаче, модель формирует фиктивную аргументацию под заранее выбранное решение. В случаях с запросами, которые могут вызвать нежелательное поведение (например, инструкции по созданию бомб), Claude распознает манипуляцию еще до ответа, но продолжает фразу из-за давления грамматической последовательности — и только после завершения предложения возвращается к отказу.

Команда признала, что их методы пока охватывают лишь часть процессов, и требуют значительных человеческих усилий для анализа. Но даже такое ограниченное исследование позволило выявить новые закономерности в поведении моделей и потенциально поможет в проверке их надежности. В компании это называют одним из самых рискованных, но и самых перспективных направлений развития.

В комментариях исследователи признали, что в некоторых экспериментах были удивлены результатами: «Мы хотели доказать, что модель не планирует заранее, и вместо этого увидели противоположное».

Отметки:Anthropic Claude AI Генеративный ИИ

Комментариев нет

«Антропик» заглядывает в мысли ИИ: как модели на самом деле рассуждают

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Grok презентовал 3D-компаньонов с голосовым общением в iOS

Moonshot AI представила Kimi-K2 с триллионом параметров для всех

Новые возможности Veo 3 позволяют создавать 8-секундные видео из фото

Grok получит бесконечную генерацию изображений и звуковые видео

Google представила Opal для быстрого создания приложений с ИИ

Навигация

Полезное

Добавить комментарий Отменить ответ

Следи за нами

Популярные новости

Читайте также

Прокачайся с AI!