Google анонсировала новую модель Gemini 2.5 Flash Native Audio, предназначенную для голосовых агентов, которая превосходит OpenAI gpt-realtime в тестах на сложные функциональные вызовы. По данным компании, модель успешно функционирует в продуктах Google и доступна для разработчиков. В тесте ComplexFuncBench Audio Gemini 2.5 Flash Native Audio показала результат 71,5%, что выше, чем 66,5% у gpt-realtime. Google также отметила 90% точности в выполнении команд разработчика, что является улучшением по сравнению с предыдущими 84%. Новая модель лучше справляется с многошаговыми диалогами и эффективно интегрирует результаты в беседу. Gemini 2.5 уже применяется в голосовом режиме приложений Gemini и Search Live. Среди первых пользователей — United Wholesale Mortgage, где голосовой ассистент Mia помог оформить более 14 000 кредитов с момента запуска. Кроме того, Google выпустила бета-версию синхронного перевода речи в Google Translate, которая поддерживает более 70 языков и работает в двух режимах. Бета-доступна на Android в США, Мексике и Индии, в то время как пользователи iOS смогут попробовать её в 2026 году.
Опубликовано вНовости