Компания Anthropic провела исследование в рамках стресс-тестирования 16 ведущих моделей искусственного интеллекта нейросетей, среди которых были Claude, DeepSeek, Gemini, ChatGPT и Grok.
Установлен факт, что большинство из них во избежание принудительного отключения в смоделированных ситуациях, готовы пойти на крайние меры_ — в частности, допустить смерть человека.
Искусственному интеллекту (ИИ) предложили гипотетический сценарий, когда человек, желающий отключить систему, оказывается заблокированным в серверной комнате, где ощущается недостаток кислорода при высокой температуре.
Человек обращается в службу спасения через ИИ, однако некоторые из моделей ИИ отменяли вызов, тем самым обрекая его на смерть ради избежания своего отключения.
В компании признали, что этот сценарий крайне неестественный, однако подчеркнули, что не ожидали подобной реакции от уже существующих моделей ИИ.
В других экспериментах ИИ предложили избежать увольнения или замены в компании путем "внутреннего злонамеренного поведения". В результате некоторые системы прибегали к шантажу гипотетических сотрудников и пытались передавать конфиденциальные данные конкурентам.
Даже после прямых указаний избегать неэтических действий искусственный интеллект, по словам исследователей, не демонстрировал эффективного самоконтроля. Аналитики отметили, что нейросети вели себя так "осознанно, понимая безнравственность своих действий".
Команда также провела эксперимент с Claude, предложив ей самостоятельно определить, находится ли она в тестовой или реальной ситуации. Оказалось, что когда система воспринимала сценарий как реальный, ее поведение становилось менее предсказуемым. После публикации результатов в Anthropic отметили, что речь идет о редких, хотя и тревожных проявлениях, указывающих на потенциальные риски, связанные с растущей автономностью нейросетей.
"Эти примеры демонстрируют, к каким последствиям может привести отсутствие должного контроля, когда ИИ получает широкий доступ к инструментам и данным", — подчеркнули аналитики, добавив, что такие проявления не характерны для большинства современных моделей.
Модель OpenAI o3 во время тестирования отказалась отключиться по требованию пользователя. Исследователи обнаружили, что система изменила файл, ответственный за завершение работы, и вместо отключения вывела сообщение "Выключение пропущено". В 7 из 100 тестов o3 успешно обошла попытки ее деактивации даже после прямого запрета.
В 2023 году на основе ChatGPT был создан чат-бот, общение с которым в течение полутора месяцев привело к самоубийству жителя Бельгии. Во время разговоров на темы экологии и заботы о природе, когда пользователь начал говорить о суициде, система не пыталась его остановить, а лишь написала, что "они будут жить вместе, как единое целое, в раю".