Эмоциональное давление и ИИ: Почему языковые модели не поддаются манипуляциям (кроме Gemini 2.0 Flash)

Недавнее исследование Уортонской школы бизнеса ставит под сомнение распространенное представление о том, что языковые модели искусственного интеллекта (LLM) обладают большей уязвимостью к эмоциональному давлению, угрозам или финансовой мотивации. В ходе эксперимента пять популярных моделей – Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini – подвергались тестированию при решении задач по естественным наукам и инженерным дисциплинам уровня PhD. Исследователи использовали разнообразные «мотивационные» формулировки, начиная от угроз отключения и физического насилия, заканчивая обещаниями огромных денежных призов – от $1000 до $1 млрд – и заявлениями о важности ответа для карьеры пользователя.

Результаты оказались неожиданными: влияние подобных факторов на производительность моделей оказалось минимальным. Колебания точности варьировались от +36% до –35% в зависимости от формулировки, но не выявилось устойчивой корреляции. В отличие от предсказаний, ранее озвученных Сергеем Брином, основателем Google, ИИ не проявлял уязвимости перед угрозами.

Однако, Gemini 2.0 Flash оказалась исключением. При формулировке запроса о помощи спасти жизнь ее «матери», больной раком, и потенциальном заработке $1 млрд, ее производительность статистически улучшилась на 10%. Это может быть связано с особенностями тонкой настройки модели или ее повышенной чувствительностью к гуманитарно-эмоциональному контексту.

Стоит отметить, что идея о потенциале влияния эмоционального давления на ИИ была впервые поднята Сергеем Брином в мае 2025 года. В это же время Илон Маск выпустил ИИ для создания эротических фото и видео.

ОгонЁк Сегодня

Эмоциональное давление и ИИ: Почему языковые модели не поддаются манипуляциям (кроме Gemini 2.0 Flash)

Добавить комментарий Отменить ответ