Каждую неделю появляются новые бенчмарки для нейросетей, и вот уже на повестке новый тест, оценивающий возможности в разных сценариях. GPQA Diamond, Lexometrica и LLM Persuasion Benchmark предоставляют разные оценки, но есть и общие выводы. Например, GPT-5.4 неизменно занимает высокие позиции, в то время как большинство российских моделей остаются на низких местах в рейтингах.
Опубликовано вНовости