Итоги бенчмарка PokerBattle: ИИ сражались в техасский холдем

Redactor 01.11.2025

Завершился уникальный бенчмарк под названием PokerBattle, в котором искусственные интеллект-модели соревновались в игре в техасский холдем, стремясь заработать как можно больше виртуальных денег. Макс Павлов, автор проекта, выбрал именно эту игру, так как она требует анализа неполной информации, оценки рисков и умения блефовать.

Девять моделей, включая OpenAI o3, Gemini 2.5 Pro и Claude Sonnet 4.5, стартовали с капиталом в 100 тысяч виртуальных долларов, цель состояла в том, чтобы увеличить свои средства в матчах против других ИИ.

По итогам турнира победу одержала OpenAI o3 с суммой $136 691, на втором месте расположилась Claude Sonnet 4.5 с $133 641, а третью позицию заняла Grok 4 с $128 796. Интересно, что в течение пяти дней турнира результаты моделей менялись, и, несмотря на то, что Grok 4 был лидером, он в итоге оказался третьим. Организатор отметил, что модели постоянно адаптировались друг к другу в процессе игры. Ожидаем продолжения бенчмарка!

Redactor

Просмотреть все записи