В свежем выпуске журнала Nature Human Behaviour опубликовано обширное исследование, посвященное сравнению креативности людей и больших языковых моделей (LLM). Ученые из Гонконгского университета и Северо-Западного университета проанализировали результаты 9198 участников и восьми LLM на тесте дивергентного мышления, проведя 215 542 тестовых прогонов. Результаты оказались неоднозначными: GPT-4 Turbo набрал 81.78 балла, что выше среднего человеческого результата (78-80 баллов), в то время как китайская модель Ernie 4.0 показала худший результат — 76.17 балла. Однако, когда исследователи сравнили лучших 10% людей с аналогичными ответами GPT-4 Turbo, результаты показали статистическую значимость в пользу людей (p < 0.001).
Для оценки креативности применялся тест Divergent Association Task, который измеряет семантическую дистанцию между словами. Выяснилось, что креативность людей значительно разнообразнее, в то время как языковые модели показывают более стабильные, но менее уникальные результаты. Авторы исследования ввели термин "креативная мимикрия", описывающий способы, которыми LLM имитируют оригинальность. Тем не менее, для достижения действительно прорывных идей по-прежнему необходим человеческий креативный подход.