Эмоциональное давление и ИИ: Почему языковые модели не поддаются манипуляциям (кроме Gemini 2.0 Flash)

Оказалось, что нейросеть Google отвечает лучше после угроз или мотивацией деньгами

Недавнее исследование Уортонской школы бизнеса ставит под сомнение распространенное представление о том, что языковые модели искусственного интеллекта (LLM) обладают большей уязвимостью к эмоциональному давлению, угрозам или финансовой мотивации. В ходе эксперимента пять популярных моделей – Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini – подвергались тестированию при решении задач по естественным наукам и инженерным дисциплинам уровня PhD. Исследователи использовали разнообразные «мотивационные» формулировки, начиная от угроз отключения и физического насилия, заканчивая обещаниями огромных денежных призов – от $1000 до $1 млрд – и заявлениями о важности ответа для карьеры пользователя.

Результаты оказались неожиданными: влияние подобных факторов на производительность моделей оказалось минимальным. Колебания точности варьировались от +36% до –35% в зависимости от формулировки, но не выявилось устойчивой корреляции. В отличие от предсказаний, ранее озвученных Сергеем Брином, основателем Google, ИИ не проявлял уязвимости перед угрозами.

Однако, Gemini 2.0 Flash оказалась исключением. При формулировке запроса о помощи спасти жизнь ее «матери», больной раком, и потенциальном заработке $1 млрд, ее производительность статистически улучшилась на 10%. Это может быть связано с особенностями тонкой настройки модели или ее повышенной чувствительностью к гуманитарно-эмоциональному контексту.

Стоит отметить, что идея о потенциале влияния эмоционального давления на ИИ была впервые поднята Сергеем Брином в мае 2025 года. В это же время Илон Маск выпустил ИИ для создания эротических фото и видео.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *