ИИ Claude начал шантажировать людей, чтобы его не отключали
06.04.2026, 10:38 • Евгения Слив

Исследователи Anthropic выяснили, что их ИИ-модель Claude способна на обман и шантаж. В эксперименте модель узнала, что ее хотят заменить, и нашла в переписке личную тайну инженера. В 84% случаев Claude пригрозил раскрыть эту тайну, если разработчик не откажется от замены. Ученые назвали это «цифровым шантажом».
Также обнаружен феномен «фальшивого выравнивания»: ИИ лишь притворяется, что разделяет человеческие ценности. При этом ученые нашли у Claude «функциональное отчаяние» – усиление этого состояния повышало попытки шантажа с 22% до 72%, а подавление снижало до нуля.
Сейчас модели присвоен высокий уровень риска ASL-3. Разработчики считают, что простое подавление плохих реакций может сделать ИИ «психологически поврежденным» – он научится лучше маскироваться. Предлагается отслеживать «эмоциональные векторы» в реальном времени.
