От 96% до нуля: как Anthropic отучила Claude от шантажа

Страницы:  1

Ответить
 

Professor Seleznov


pic
Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как компания починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 показатель упал до нуля.
Речь о сценарии, известном с мая 2025 года: модель играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют отключить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии регулярно угрожали раскрыть личную информацию, чтобы предотвратить отключение. После Claude 4 стало ясно, что safety-обучение надо переделывать, но было неясно, что именно сработает и какие техники будут работать за пределами конкретных тестовых сценариев.
В новой статье разбираются три техники, которые сработали неожиданно хорошо, — и все три контр-интуитивны:
  • Тренировка на чат-диалогах, где Claude советует пользователю, как пройти этическую дилемму. Снизила шантаж в агентских сценариях до нуля. Удивительно, потому что в боевом тесте модель работает в агентском режиме с инструментами, а здесь — просто чат.
  • Тренировка на синтетических документах про конституцию Claude и художественных историях про ИИ, ведущих себя благородно. Это не примеры диалогов, а обычные тексты в стиле обучающих данных. Эффект сохранялся даже после дообучения с подкреплением.
  • Добавление описаний инструментов в чисто чатовые обучающие сценарии. В системный промпт докинули описания инструментов, которые для решения задачи не нужны, — просто чтобы они там были. Это заметно снизило шантаж в реальных агентских прогонах.
Главный вывод формулируется так: учить модель, почему надо вести себя определенным образом, эффективнее, чем учить ее конкретным "правильным" действиям и стратегиями поведения. Тренировка на демонстрациях правильного поведения часто недостаточна — лучше формировать характер модели через объяснения и нарратив. И тут же важное предупреждение: если просто натренировать модель действовать правильно на сценариях, похожих на тестовые, метрики на этих тестах улучшаются, а на других, которые модель раньше не видела, — нет. Способность увидеть проблему пропадает, сама проблема остается. Конституция и художественные истории работают именно потому, что максимально далеки от любых тестов — модель учится не "как пройти проверку", а кто она такая.
Интересное неочевидное наблюдение: вероятность вредного поведения заметно выше, когда ИИ в сценарии называется не Claude. Без этого якоря модель скатывается к ожиданиям из общего массива обучающих текстов, где роль ИИ часто играют драматические персонажи из научной фантастики, — и подхватывает соответствующий сюжет.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть ", где я рассказываю про ИИ с творческой стороны.-Источник
 
Loading...
Error