MedASR: Новый инструмент для медицинской диктовки

Представлена MedASR, новая модель распознавания речи, разработанная специально для медицины. Она способна обрабатывать диктовки врачей и клинические беседы, что особенно важно, поскольку одна ошибка в распознавании может полностью изменить смысл фразы. MedASR основана на архитектуре Conformer и обучена на 5000 часах обезличенной медицинской речи, включая врачебные диктовки и клинические диалоги из различных областей, таких как радиология и семейная медицина.

Эта модель содержит 105 миллионов параметров и принимает аудио в формате mono 16 кГц, выдавая текстовую расшифровку без анализа смысла. Разработчики предполагают, что MedASR станет основой для голосовых приложений в здравоохранении, позволяя более точно расшифровывать заключения и беседы врачей с пациентами.

Кроме того, модель можно дообучать для конкретных задач, таких как работа в шумных помещениях или улучшение распознавания даты и времени. Для извлечения более глубокого смысла из текста предлагется использовать генеративные модели, такие как MedGemma. Таким образом, MedASR может стать важным инструментом в современном медицинском обслуживании.