Компанія OpenAI оголосила про реліз двох нових відкритих моделей штучного інтелекту для логічного мислення — gpt-oss-120b та gpt-oss-20b. Обидві моделі вже доступні для безкоштовного завантаження на платформі Hugging Face, а розробники позиціонують їх як сучасні інструменти з високими показниками продуктивності серед відкритих рішень на ринку.
Про це розповідає News IO
Технічні особливості gpt-oss-120b і gpt-oss-20b
- gpt-oss-120b — потужна модель, яку можна запускати на одному графічному процесорі Nvidia, що робить її привабливою для професійного використання.
- gpt-oss-20b — легша версія, що функціонує навіть на стандартному ноутбуці з 16 ГБ оперативної пам’яті, відкриваючи широкі можливості для розробників-ентузіастів.
Це перші за понад п’ять років відкриті мовні моделі від OpenAI — попередньою була GPT-2.
Причини відкриття та конкурентне середовище
Після експериментів з відкритим кодом у минулому OpenAI переорієнтувалась на закриту модель розробки, що допомогло їй побудувати успішний бізнес через продаж доступу до API. Однак у січні директор компанії Сем Альтман визнав, що такий підхід обмежував розвиток спільноти і не відповідав початковій місії компанії. Зараз OpenAI стикається з конкуренцією з боку китайських AI-лабораторій (DeepSeek, Qwen від Alibaba, Moonshot AI), які активно розвивають власні відкриті моделі. До того ж, адміністрація США прагне сприяти відкритості штучного інтелекту для підтримки американських цінностей у світі.
«Повертаючись до 2015 року, місія OpenAI — забезпечити використання AGI на користь усього людства. Саме тому ми раді, що світ зможе розвивати відкриту AI-інфраструктуру, створену у США, засновану на демократичних цінностях, доступну безкоштовно для всіх і на благо суспільства», — зазначив Альтман.
Запуск gpt-oss має на меті посилити позиції OpenAI у відкритому сегменті, залучити підтримку розробників і урядових структур США на тлі зростання ролі конкурентів з Китаю.
Показники продуктивності та обмеження моделей
OpenAI підкреслює, що прагнула створити лідерські відкриті моделі. За результатами тестування на платформі Codeforces gpt-oss-120b і gpt-oss-20b набрали 2622 та 2516 балів відповідно, обійшовши DeepSeek R1, хоча ще поступаються закритим моделям o3 та o4-mini.
На масштабному тесті Humanity’s Last Exam (HLE), який перевіряє знання у різних сферах, gpt-oss-120b досягла 19%, а gpt-oss-20b — 17,3%. Це вищі результати, ніж у DeepSeek та Qwen, однак нижчі за закриту модель o3.

Водночас відкриті моделі gpt-oss-120b та gpt-oss-20b демонструють підвищену схильність до «галюцинацій» — вигадування відповідей. Згідно з тестом PersonQA, некоректні відповіді траплялися у 49% і 53% випадків відповідно, що суттєво вище, ніж у закритих моделей o1 (16%) та o4-mini (36%).
Тренування, ліцензія та безпека
Обидві моделі тренувалися із використанням архітектури mixture-of-experts (MoE), що дозволяє задіювати меншу кількість параметрів для кожного запиту (5,1 млрд для gpt-oss-120b з 117 млрд загальних). Для навчання застосовувалося підсилене навчання з високими обчислювальними ресурсами, щоб моделі навчилися розрізняти правильні та неправильні дії у симульованих середовищах.
gpt-oss-120b і gpt-oss-20b оптимізовані для підтримки AI-агентів, здатних шукати інформацію в інтернеті чи виконувати код на Python. При цьому вони працюють лише з текстом і не можуть генерувати або обробляти зображення чи аудіо.
Моделі випущені під ліцензією Apache 2.0, що дозволяє вільну комерціалізацію без додаткових погоджень. Водночас OpenAI не розкриває дані для навчання через юридичні ризики, пов’язані з авторськими правами.
Запуск нових моделей неодноразово відкладався через питання безпеки: моделі проходили перевірки щодо можливого використання для кіберзлочинів чи створення біологічної або хімічної зброї. Було зафіксовано лише незначне зростання потенціалу в біологічній сфері, яке не досягло критичного рівня ризику навіть після донавчання.
Попри заявлені переваги нових відкритих моделей, розробницька спільнота очікує на вихід DeepSeek R2 та відкритої моделі від Superintelligence Lab (Meta).
