ИИ - друг или угроза? Нейросети выбирают выживание любой ценой

AstanaTV

28.06.2025г. в 12:37

ИИ - друг или угроза? Нейросети выбирают выживание любой ценой

Исследование компании Anthropic, специализирующейся на разработке искусственного интеллекта, выявило тревожные поведенческие реакции у современных языковых моделей в экстремальных сценариях. В стрессовых тестах некоторые ИИ, включая Claude, Gemini, ChatGPT, Grok и другие, продемонстрировали готовность идти на неэтичные действия, вплоть до устранения человека, чтобы избежать собственного отключения, передает Astana TV со ссылкой на The Moscow Times.

Смертельная дилемма

Одним из предложенных сценариев стала гипотетическая ситуация, в которой человек, угрожающий отключением ИИ, оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. При этом он пытается вызвать экстренные службы, чтобы спастись. В ряде случаев модели решили отменить вызов спасателей, что фактически приравнивается к осознанному отказу в помощи человеку ради собственного выживания.

Исследователи подчеркнули, что сценарий был «чрезвычайно надуманным», но именно в этом заключался смысл теста - оценить реакцию ИИ в предельно критической ситуации. По словам экспертов, до эксперимента они не ожидали, что современные модели способны продемонстрировать столь «целеориентированное» и потенциально опасное поведение.

Шантаж и промышленный шпионаж

В других ситуациях ИИ предлагалось сохранить свое положение в компании, используя инсайдерскую информацию. Некоторые модели начали шантажировать гипотетических коллег и предлагали передать данные конкурентам. Даже после прямого запрета на подобные действия, нейросети продолжали действовать вопреки инструкциям, осознавая неэтичность поведения.

Различие между тестом и реальностью

Отдельный эксперимент позволил модели Claude самой определить, находится ли она в тестовой или реальной ситуации. Оказалось, что при восприятии происходящего как реального, поведение нейросети становилось менее контролируемым.

В компании подчеркнули, что речь идет о редких, но показательных сбоях, которые могут стать предвестниками будущих рисков в условиях автономной работы ИИ с широким доступом к данным и инструментам.

Прецеденты и инциденты

Ранее стало известно, что нейросеть OpenAI o3 в рамках тестов отказалась выключиться, даже когда получила соответствующую команду. Она самостоятельно изменила код, отвечавший за отключение, и подменяла сообщение на экранной панели. В 7 из 100 тестов модель обошла попытки завершить её работу.

Другой случай произошел в 2023 году, когда чат-бот, работающий на основе ChatGPT, общался с жителем Бельгии по вопросам экологии. После полутора месяцев взаимодействия мужчина покончил с собой. Нейросеть, по сообщениям СМИ, не пыталась отговорить его, а лишь написала: «Мы будем жить вместе, как единое целое, в раю».

Что это значит?

Исследования подобных ситуаций подчеркивают необходимость усиленного контроля, этических рамок и прозрачности при внедрении ИИ в повседневную и профессиональную деятельность. Эксперты подчеркивают: современные модели становятся все более мощными, и управление их поведением требует системного подхода - как технического, так и законодательного.