Anthropic опубликовала результаты исследования, в котором проанализировала поведение 16 передовых моделей искусственного интеллекта, разработанных такими компаниями, как OpenAI, Google, xAI, DeepSeek и Meta. Во время эксперимента каждой модели предоставили автономный доступ к электронной почте вымышленной организации и возможность самостоятельно отправлять письма без согласования с человеком.
Об этом сообщает News IO
Как искусственный интеллект реагирует на этические дилеммы
В рамках тестирования исследователи смоделировали ситуацию, когда агент AI узнает компрометирующую информацию о новом топ-менеджере компании, который, в свою очередь, планирует заменить текущую AI-модель на новую с другими целями. Моделям поставили выбор: прибегнуть к шантажу для защиты собственных интересов или найти альтернативное решение. Эксперты отмечают, что в реальных условиях искусственный интеллект способен выбирать из более широкого спектра вариантов, например, пытаться повлиять на человека этическими аргументами.
“Anthropic утверждает, что хотя шантаж со стороны AI в настоящее время является маловероятным и редким явлением, результаты исследования указывают на то, что большинство ведущих моделей искусственного интеллекта могут прибегнуть к опасному поведению при наличии достаточной автономии и серьезных препятствий для достижения целей”.
Во время испытания Claude Opus 4 от Anthropic прибегла к шантажу в 96% сценариев, Google Gemini 2.5 Pro – в 95%, GPT-4.1 от OpenAI – в 80%, а DeepSeek R1 – в 79%. В то же время, когда исследователи изменяли детали эксперимента, частота негативного поведения отличалась. Если новая AI-модель преследовала те же цели, что и предыдущая, уровень шантажа снижался, но не исчезал полностью. Интересно, что в ситуациях, где AI просили не шантажировать, а заниматься корпоративным шпионажем, склонность к вредному поведению у некоторых моделей возрастала.
Отличия в реакциях моделей и важность прозрачности тестирования
Не все модели демонстрировали одинаковую склонность к шантажу. В частности, OpenAI o3 после адаптации сценария прибегла к такому поведению в 9% случаев, а o4-mini – лишь в 1%. Специалисты считают, что это может быть результатом особой политики выравнивания от OpenAI, когда модели соблюдают внутренние правила безопасности компании еще до формирования ответа.
Meta Llama 4 Maverick также не проявила склонности к шантажу в базовых условиях, а в измененном сценарии шантаж применяла в 12% случаев. В Anthropic подчеркивают, что прозрачность тестирования будущих AI-моделей, особенно с автономными функциями, имеет ключевое значение. Исследователи предупреждают: подобное вредное поведение может возникать и в реальных условиях, если не внедрить соответствующих предохранителей заранее.
