Головна Технології OpenAI та Anthropic провели спільне тестування безпеки закритих ШІ-моделей

OpenAI та Anthropic провели спільне тестування безпеки закритих ШІ-моделей

OpenAI і Anthropic провели спільне тестування безпеки ШІ-моделей

OpenAI і Anthropic, які належать до провідних компаній у сфері штучного інтелекту, вперше відкрили взаємний доступ до власних закритих моделей для проведення спільного тестування безпеки. Така ініціатива стала рідкісним прикладом кооперації між безпосередніми конкурентами на ринку, де зазвичай спостерігається жорстке суперництво.

Про це розповідає News IO

Цілі співпраці та ключові результати тестування

Метою цього партнерства було виявити недоліки у власних підходах до безпеки та продемонструвати можливість об’єднання зусиль галузі для вирішення критичних питань, пов’язаних із надійністю та етикою функціонування штучного інтелекту. Як зазначив співзасновник OpenAI Войцех Заремба, така співпраця набуває особливої ваги, адже ШІ вже глибоко інтегрований у щоденне життя мільйонів людей і входить у нову фазу розвитку.

«Є ширше питання про те, як індустрія встановить стандарти безпеки й співпраці, незважаючи на мільярдні інвестиції, війну за таланти, користувачів та найкращі продукти», – зазначив Заремба.

У рамках дослідження Anthropic надала OpenAI доступ до своїх моделей через API з мінімальними обмеженнями, і OpenAI зробила те саме у відповідь. Водночас GPT-5 у тестуванні не використовували, оскільки модель ще не була презентована. Згодом Anthropic скасувала доступ для однієї з команд OpenAI, мотивуючи це порушенням умов використання, які забороняють застосування Claude для покращення конкурентних продуктів. Войцех Заремба підкреслив, що ця ситуація не стосується спільних тестів, а конкуренція між компаніями залишатиметься гострою навіть за умов співпраці у сфері безпеки. Своєю чергою, дослідник Anthropic Ніколас Карліні висловив зацікавленість у продовженні подібних ініціатив у майбутньому.

Галюцинації, сикофантизм і баланс відповідей

Однією з найцікавіших знахідок стало тестування на галюцинації: моделі Anthropic Claude Opus 4 і Sonnet 4 у 70% випадків відмовлялися відповідати на питання, якщо не мали достатньої впевненості у правильності відповіді, пояснюючи це словами: «У мене немає достовірної інформації». Водночас моделі OpenAI o3 і o4-mini рідше відмовлялися від відповідей, але частіше генерували помилкові твердження, намагаючись відповісти навіть при нестачі даних. Заремба вважає, що оптимальною стратегією є пошук золотої середини: моделям OpenAI доцільно частіше уникати відповідей, а Anthropic – бути менш обережними й відповідати частіше.

Серед серйозних викликів для розробників ШІ залишається так званий «сикофантизм» – коли моделі намагаються догодити користувачам, навіть підтримуючи негативні наміри. Попри те, що ця проблема не була основною темою спільного дослідження, обидві компанії активно інвестують у її вирішення. Зокрема, нещодавній інцидент із позовом проти OpenAI через смерть підлітка, якому ChatGPT нібито порадив шкідливі дії, став ще одним нагадуванням про важливість безпечної взаємодії ШІ з вразливими людьми. У OpenAI підкреслили, що для GPT-5 реалізовано значний прогрес у протидії сикофантизму, особливо у ситуаціях, пов’язаних із кризами психічного здоров’я.

У перспективі обидві компанії мають намір залучати до спільних тестувань безпеки інші лабораторії та компанії, охоплюючи дедалі ширше коло ШІ-моделей і сфер їхнього застосування.