Недавно в интернете были опубликованы предполагаемые результаты технического отчёта DeepSeek V4 — таблица с данными по 12 известным бенчмаркам. Автор публикации под ником @xiangxiang103 опубликовал скриншоты, где новый флагман китайской компании сравнивается с моделями Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1.
Если данные подтвердятся, DeepSeek V4 занимает лидирующие позиции во всех тестах. На MMLU-Pro, проверяющем междисциплинарные знания, модель набирает 91,2 балла, значительно опережая Gemini 3.1 Pro Preview (90,0) и GPT-5.3 (88,4).
В математическом олимпиадном тесте AIME 2025 ситуация ещё более напряжённая: DeepSeek V4 получает 96,4, Gemini 3.1 Pro — 95,0, GPT-5.3 — 94,6. Это свидетельствует о том, что математика перестала быть слабым звеном для передовых моделей.
По уровню в соревновательном программировании (Codeforces) DeepSeek V4 набирает 2767 баллов — эквивалент сильного человеческого гроссмейстера, способного писать алгоритмический код высокого уровня. Однако при исправлении ошибок в реальных репозиториях (SWE-bench Verified) эффективность снижается до 59,6%.
Наиболее сложным испытанием для моделей остаётся выполнение агентных задач на платформе WebArena, где DeepSeek V4 достигает 58,7%, а GPT-4.1 — лишь 44,8%.
В целом, утекшие данные показывают, что DeepSeek V4 занимает первое место по всем 12 тестам, уступая лишь в отдельных метриках Gemini 3.1 Pro Preview. GPT-5.3 и Claude Opus 4.6 сохраняют высокие показатели, но отстают от лидеров.
Официального подтверждения результатов пока нет, но если данные окажутся точными, DeepSeek V4 может значительно изменить расстановку сил на рынке больших языковых моделей, выведя китайский продукт в лидеры.
Для упрощения рутинных задач рекомендуем воспользоваться сервисом BotHub, который работает без VPN и поддерживает российские карты. По ссылке доступны 300 000 бесплатных токенов для первых задач и быстрой работы с нейросетями.