В свежем тестировании Vibe Code Bench v1.1 модель GPT-5.4 заняла первое место с результатом 67,42%, что на 5,7 процентных пункта выше, чем у предыдущей версии GPT-5.3 Codex, которая набрала 61,77%. Третье место заняла Claude Opus 4.6 без режима рассуждений, с результатом 57,57%. Данный бенчмарк оценивает возможности моделей не только в устранении ошибок, но и в создании полностью функционирующих веб-приложений на основе текстового описания, начиная с пустой папки и заканчивая развернутым сервисом. В наборе представлено 100 задач, каждая из которых требует построения приложения с доступом к различным сервисам и инструментам. Интересно, что несмотря на лидерство GPT-5.4 в точности, затраты на попытки у Claude Opus 4.6 ниже, что может быть важным фактором для разработчиков. Примечательно, что около трети решений от GPT-5.4 все еще не проходят испытания, подчеркивая, что работа по улучшению моделей продолжается.
Опубликовано вНовости