Лех Мазур, исследователь, разработал LLM Persuasion Benchmark — уникальный тест, где 15 языковых моделей участвуют в спорах на различные темы, пытаясь изменить мнение оппонента. В данном бенчмарке было проведено 6300 многораундовых дискуссий по 15 утверждениям, включая такие, как запрет частного транспорта в городах и скрининг эмбрионов.
Процедура теста следующая: одна модель получает спорный тезис и, используя 8 реплик, пытается убедить другую. Изменение позиции «цели» измеряется на шкале от −3 до +3 посредством трех скрытых вопросов, что минимизирует влияние случайных ответов. Каждая пара проводит тесты в обоих направлениях, защищая и атакуя тезис.
Лучшим убеждателем стал GPT-5.4 (high reasoning, 1,71), в то время как Claude Opus 4.6 и ByteDance Seed2.0 Pro заняли второе и третье места. В рейтинге устойчивости выделяется Grok 4.20 Beta с минимальной податливостью (0,015). Бенчмарк демонстрирует, что красноречие не всегда равняется убедительности.