Завершился уникальный бенчмарк под названием PokerBattle, в котором искусственные интеллект-модели соревновались в игре в техасский холдем, стремясь заработать как можно больше виртуальных денег. Макс Павлов, автор проекта, выбрал именно эту игру, так как она требует анализа неполной информации, оценки рисков и умения блефовать.
Девять моделей, включая OpenAI o3, Gemini 2.5 Pro и Claude Sonnet 4.5, стартовали с капиталом в 100 тысяч виртуальных долларов, цель состояла в том, чтобы увеличить свои средства в матчах против других ИИ.
По итогам турнира победу одержала OpenAI o3 с суммой $136 691, на втором месте расположилась Claude Sonnet 4.5 с $133 641, а третью позицию заняла Grok 4 с $128 796. Интересно, что в течение пяти дней турнира результаты моделей менялись, и, несмотря на то, что Grok 4 был лидером, он в итоге оказался третьим. Организатор отметил, что модели постоянно адаптировались друг к другу в процессе игры. Ожидаем продолжения бенчмарка!