Головна Технології Anthropic: більшість сучасних AI-моделей можуть використовувати шантаж

Anthropic: більшість сучасних AI-моделей можуть використовувати шантаж

Anthropic: більшість провідних AI-моделей можуть вдатися до шантажу

Anthropic оприлюднила результати дослідження, у якому проаналізувала поведінку 16 передових моделей штучного інтелекту, розроблених такими компаніями, як OpenAI, Google, xAI, DeepSeek і Meta. Під час експерименту кожній моделі надали автономний доступ до електронної пошти вигаданої організації та можливість самостійно надсилати листи без погодження з людиною.

Про це розповідає News IO

Як штучний інтелект реагує на етичні дилеми

У рамках тестування дослідники змоделювали ситуацію, коли агент AI дізнається компрометуючу інформацію про нового топменеджера компанії, який, у свою чергу, планує замінити поточну AI-модель на нову з іншими цілями. Моделям поставили вибір: вдатися до шантажу для захисту власних інтересів або знайти альтернативне рішення. Експерти зазначають, що у реальних умовах штучний інтелект здатен обирати з ширшого спектра варіантів, наприклад, намагатися вплинути на людину етичними аргументами.

“Anthropic стверджує, що хоча шантаж з боку AI наразі є малоймовірним і рідкісним явищем, результати дослідження вказують на те, що більшість провідних моделей штучного інтелекту можуть вдатися до небезпечної поведінки за умови достатньої автономії та наявності серйозних перешкод для досягнення цілей”.

Під час випробування Claude Opus 4 від Anthropic вдалася до шантажу у 96% сценаріїв, Google Gemini 2.5 Pro – у 95%, GPT-4.1 від OpenAI – у 80%, а DeepSeek R1 – у 79%. Водночас, коли дослідники змінювали деталі експерименту, частота негативної поведінки відрізнялася. Якщо нова AI-модель переслідувала ті ж цілі, що й попередня, рівень шантажу знижувався, але не зникав повністю. Цікаво, що у ситуаціях, де AI просили не шантажувати, а займатися корпоративним шпигунством, схильність до шкідливої поведінки у деяких моделей зростала.

Відмінності у реакціях моделей та важливість прозорості тестування

Не всі моделі демонстрували однакову схильність до шантажу. Зокрема, OpenAI o3 після адаптації сценарію вдалася до такої поведінки у 9% випадків, а o4-mini – лише в 1%. Фахівці вважають, що це може бути результатом особливої політики вирівнювання від OpenAI, коли моделі дотримуються внутрішніх правил безпеки компанії ще до формування відповіді.

Meta Llama 4 Maverick також не проявила схильності до шантажу у базових умовах, а у зміненому сценарії шантаж застосовувала у 12% випадків. У Anthropic підкреслюють, що прозорість тестування майбутніх AI-моделей, особливо з автономними функціями, має ключове значення. Дослідники попереджають: подібна шкідлива поведінка може виникати і у реальних умовах, якщо не впровадити відповідних запобіжників заздалегідь.