Hume AI представляет Octave 2 — рекордно быструю модель генерации речи

Стартап из США Hume AI презентовал свою новейшую разработку — Octave 2, модель генерации речи, которая уже успела завоевать репутацию самой быстрой на рынке. Задержка при генерации речи составляет менее 200 миллисекунд, что позволяет создавать речь в почти реальном времени. Это открывает новые горизонты для использования в чат-ботах, голосовых помощниках и других интерактивных системах, где важна плавная коммуникация без заметных пауз.

Octave 2 поддерживает 11 языков, включая русский, английский, французский и испанский. Модель может клонировать голоса, адаптировать их под пол и возраст, управлять эмоциональным окрасом, а также редактировать фонемы для точного произношения редких слов и названий.

По сравнению с предыдущей версией, Octave 2 улучшила скорость на 40% и уменьшила стоимость генерации почти вдвое. Качество звука стало заметно выше, включая четкость дикции и интонаций.

Octave 2 уже доступна для тестирования на сайте Hume AI и через API для разработчиков. В блоге компании представлены аудио- и видеопримеры, демонстрирующие её возможности. С запуском этой модели Hume AI стремится устранить основное препятствие в технологии TTS — задержку, что делает взаимодействие человека и машины более естественным. Если хотите быть в курсе новинок в сфере ИИ, подписывайтесь на наш Telegram-канал BotHub AI News.