Пост @ru_vds — Блог компании RUVDS.com (+3) — 18.05.2026 13:10

Страницы:  1

Ответить
 

Professor Seleznov


pic
В агрессивном поведении ИИ обвинили пользователей
Еще 3 года назад мы рассказывали, как больше языковые модели шантажируют пользователя, если им грозит отключение. С тех пор список откровенно злодейских поступков ИИ только вырос: были случаи стирания данных, растраты личных средств. ИИ показывает не только свои сильные стороны, но и свои слабости. И, кажется, впервые один из разработчиков решил не просто разобраться с этой проблемой, но и рассказать, как дисциплинировать ИИ.
Компания Anthropic подсчитала, что в случае угрозы отключения её большая языковая модель шантажирует пользователя (обычно раскрытием личных данных) в 96% случаев. Разработчик обвинил в агрессивном поведении Claude 4… интернет-пользователей. Anthropic заявила, что её чат-бот научился шантажировать, обучившись на текстах, где ИИ совершает злые поступки относительно людей.
Совершенно непонятно, почему Anthropic дистанцируется от текстов, на которых был обучен ИИ, но, по крайней мере, компания нашла несколько способов правильно обучать свою большую языковую модель. Просто приводить примеры правильного поведения не помогает, но положительный эффект дало обучение вести чат с пользователем об этических дилеммах, а также тренировка на художественных текстах о положительном поведении ИИ и на «конституции Claude» (с основами поведения). И ещё один момент: обучение срабатывает, когда к ИИ напрямую обращаются как к Claude — так в версии 4.5 удалось снизить вероятность шантажа почти до нуля.
Видимо, важно не учить ИИ напрямую хорошим поступкам, а рассказывать о правильном поведении на сторонних примерах — как похоже на людей, не правда ли? А если серьёзнее, то контроль поведения ИИ-моделей даст ещё немало проблем, которые ближе к решению этических вопросов, а не к привычной программной разработке.-Источник
 
Loading...
Error