четвер, 11 грудня 2025 р.

OpenAI випускає GPT-5.2: штучний інтелект вперше перевершив людей-експертів в 70% завдань

OpenAI випускає GPT-5.2: штучний інтелект вперше перевершив людей-експертів в 70% завдань

Компанія OpenAI офіційно оголосила про запуск GPT-5.2, своєї флагманської серії моделей штучного інтелекту. Розробники стверджують, що це оновлення є значним стрибком у розвитку "загального інтелекту" і пропонує суттєві покращення у написанні коду, розумінні великих обсягів контексту та агентних можливостях.

Нові моделі виходять у варіантах Instant, Thinking та Pro та вже сьогодні стануть доступними для користувачів ChatGPT Plus, Enterprise та Business, а також розробникам через API.

Ключовою особливістю релізу стали результати моделі у GDPval – новому бенчмарку, створеному для оцінки компетентності у чітко визначених робочих завданнях у 44 різних професіях.

За даними OpenAI, модель GPT-5.2 Thinking стала першою, що працює на рівні або вище рівня людини-експерта. У сліпих порівняннях, які оцінювали професіонали галузі, GPT-5.2 Thinking перевершила або зрівнялася з провідними експертами у 70,9% завдань. Ці завдання включали створення складних електронних таблиць, розробку презентацій та підготовку технічної документації.

В OpenAI зазначили, що модель виконувала ці завдання у понад 11 разів швидше та коштувала менш як 1% від вартості роботи фахівців-людей.

Для інженерів-програмістів OpenAI повідомляє, що GPT-5.2 Thinking встановила нову планку якості. Вона досягла результату 55,6% у SWE-Bench Pro – тесті реальних навичок програмної інженерії, що охоплює кілька мов програмування та складні кодові бази.

Модель також отримала покращені візуальні можливості. OpenAI стверджує, що частота помилок при аналізі графіків та технічних схем скоротилася майже вдвічі. Це дозволяє моделі краще інтерпретувати дашборди, скріншоти продуктів та просторові макети, наприклад, ідентифікувати компоненти на материнській платі. До того ж OpenAI заявляє, що нова модель Thinking галюцинує на 30% менше, ніж її попередниця.

Як зазначають в OpenAI модель демонструє кращі "показники довгострокового міркування" (long-horizon reasoning). У внутрішніх тестах з використанням бенчмарку MRCRv2 модель досягла майже 100% точності в пошуку та синтезі інформації в документах обсягом до 256 000 токенів. Ця можливість орієнтована на юридичний, фінансовий та науковий сектори, в яких часто аналізуються масивні файли.

Результати бенчмарків GPT-5.2 Thinking порівняно з GPT-5.1 Thinking:

Кілька великих технологічних платформ, зокрема Notion, Zoom, Shopify та Databricks, вже інтегрували нову модель, та заявили про "виняткову продуктивність" в агентних завданнях, в яких ШІ автономно використовує інструменти для виконання багатоетапних проєктів.

І хоча моделі GPT-5.2 вже починають розгортатися для користувачів, проте OpenAI поки не буде вимикати старіші моделі GPT-5.1, вони залишаться доступними ще протягом трьох місяців.

 

Немає коментарів:

Дописати коментар

В Іспанії в 1963 році знайшли скарб, в якому є предмети із зоряного металу

  Ірина Погоріла Тільки тепер, через 60 років, вченим вдалося з'ясувати, щ...