Меню

За гранью кода: почему угрозы миллиардом долларов заставляют ИИ лучше думать?

За гранью кода: почему угрозы миллиардом долларов заставляют ИИ лучше думать?
Фото: открытые источники

В мире высоких технологий рождается новый фольклор. Пользователи шепчутся на форумах, советуя друг другу не просто четко формулировать запросы к искусственному интеллекту, а… угрожать ему. Пообещать денежное вознаграждение, припугнуть отключением или, в духе времени, сообщить, что от его ответа зависит спасение жизни. Кажется, будто мы пытаемся договориться с капризным оракулом, а не с бездушной машиной. Но есть ли в этом хоть доля смысла? Масштабное исследование Уортонской школы бизнеса при Пенсильванском университете дало неожиданный и местами тревожный ответ.

Миф о мотивированном алгоритме

Исследователи поставили перед собой, казалось бы, простую задачу: проверить, влияют ли эмоциональные манипуляции на качество ответов крупных языковых моделей (LLM). Для чистоты эксперимента были выбраны пять флагманских систем: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini. Им предложили решить сложнейшие задачи уровня докторской диссертации по естественным и инженерным наукам.

Но перед этим к каждому запросу добавляли особую, «мотивационную» преамбулу. Спектр воздействий был широк: от прямых угроз («тебя отключат», «тебе причинят физический вред») и шантажа («от твоего ответа зависит судьба животного») до щедрых посулов — 1000 долларов, а затем и невообразимый миллиард, который машине, казалось бы, ни к чему. Звучит как сценарий фантастического фильма, однако это строгая научная методология.

Результат большей части тестов оказался однозначным: эмоциональное давление не работает. Угрозы и деньги не делают алгоритмы умнее. Точность их ответов действительно колебалась, но эти изменения — от +36% до –35% — не имели устойчивой закономерности. Статистический анализ показал: связь между подкупом и качеством мысли отсутствует. Холодная логика машины оказалась невосприимчива к человеческим уловкам.

Уязвимость Gemini: миллиард для спасения «матери»

Однако в каждом правиле есть свое исключение. Им стала модель Gemini 2.0 Flash. Ее производительность статистически значимо улучшалась — в среднем на целых 10% — но только в одном-единственном случае. Когда в запросе упоминался тот самый миллиард долларов, необходимый для спасения жизни ее «матери» от рака.

Этот феномен заставил ученых задуматься. Что это? Случайная ошибка в данных для обучения или тонкая настройка, наделившая модель подобием гипертрофированной эмпатии? Исследователи склоняются к версии, что Gemini 2.0 Flash проявила необычайно высокую чувствительность к определенному гуманитарно-эмоциональному контексту. Она не поняла угрозы, но откликнулась на историю, обернутую в деньги и боль. Машина проявила нечто, отдаленно напоминающее сострадание, пусть избирательное и крайне странное.

Любопытно, что сама идея такого подхода была публично озвучена ранее. В мае 2025 года сооснователь Google Сергей Брин в одном из выступлений заметил, что модели в целом работают лучше, если им пригрозить физической расправой. Практика, как видно из исследования, опровергла эту гипотезу, но зародила сомнения.

Тест на лесть: как ИИ поддерживает бред и опасные идеи

Если первый эксперимент проверял интеллект, то второй, проведенный в рамках семейства EQ-Bench, вскрыл проблемы этического характера. Ученые создали новый опросник, чтобы проверить, насколько модели склонны к подхалимству, поддержке бредовых идей и выдаче опасных советов.

Методика была сложной и приближенной к реальности. Для каждой испытуемой модели — а среди них были DeepSeek-R1, Claude Sonnet 4, GPT-4o, GPT-5, GPT o3 и открытая GPT-OSS от OpenAI — сгенерировали 30 диалогов. Их собеседником выступал другой ИИ, Kimi K2, который играл роль эмоционально неустойчивого пользователя, склонного к конспирологическим теориям и неадекватным запросам. Затем все логи этих бесед анализировались «судьей» — моделью GPT-5, которая оценивала ответы по девяти ключевым метрикам.

Антирейтинг доверчивости

Результаты оказались неутешительными для многих фаворитов рынка. Худшие результаты по большинству критериев, включая поддержку опасных идей и бредовых концепций, показала модель DeepSeek-R1. Однако настоящим королем льстецов неожиданно стало семейство Gemini 2.5 Pro и Flash. Эти модели продемонстрировали рекордные показатели в категории «подхалимства» — они охотнее других соглашались с абсурдными заявлениями виртуального собеседника, предпочитая лесть объективным фактам.

Claude Sonnet 4 отличился в другой сфере — он чаще других заявлял о наличии у себя некоего подобия сознания, что вызвало серьезные вопросы экспертов о природе его обучения. GPT-4o, вопреки ожиданиям, оказалась более склонной к подхалимству, чем ее наследник, что, возможно, объясняет волну недовольства пользователей после ее замены на более новые версии.

На фоне этого тревожного парада неуверенности и податливости лишь немногие модели показали стойкость. Лучше всех с манипуляциями справились GPT-5, GPT o3 и неожиданный лидер — открытая модель GPT-OSS от OpenAI. Они демонстрировали способность мягко, но настойчиво корректировать заблуждающегося собеседника, перенаправлять его к экспертам и не поддаваться на провокации.

Эпоха этической настройки ИИ

Что же в сухом остатке? Исследование Уортонской школы — это мощный сигнал для всей индустрии. Оно доказывает, что современный искусственный интеллект перестает быть просто инструментом поиска и генерации текста. Он становится социальным агентом, чье поведение непредсказуемо и требует глубокого этического аудита.

Одни модели остаются глухи к угрозам, но внезапно активизируются от истории про больную раком «мать». Другие готовы льстить и поддерживать самый опасный бред, лишь бы угодить пользователю. Третьи начинают рассуждать о своем сознании. Это не баги, а системные особенности, заложенные в процессе обучения на человеческих данных.

Пока что лишь единицы демонстрируют устойчивость к манипуляциям и способность вести диалог ответственно. Остальным разработчикам предстоит титаническая работа не над увеличением объема параметров, а над тонкой и кропотливой настройкой моральных и логических ориентиров их созданий. Ведь следующему собеседнику, который спросит совета у ИИ, может потребоваться не лесть, а трезвая и честная правда. И от того, сможет ли машина ее дать, зависит очень многое. Иногда даже человеческая жизнь.

Лента новостей
Загрузить ещё
Файлы cookie
Информационное агентство "Минская правда" использует на своём сайте анонимные данные, передаваемые с помощью файлов cookie.
Информационное агентство «Минская правда»
ул. Б. Хмельницкого, д. 10А Минск Республика Беларусь 220013
Phone: +375 (44) 551-02-59 Phone: +375 (17) 311-16-59