Исследователи из Юлиха создали Quinex (Quantitative Information Extraction) — инструмент, способный автоматически находить и структурировать числовые данные в научных публикациях. В отличие от простого поиска цифр, система учитывает контекст: что измерялось, когда и каким методом, а также привязывает значения к единицам измерения и источникам.
Это особенно важно, поскольку в таких областях, как энергетика, климатология и материаловедение, критически необходимы точные количественные данные для сравнения моделей и технологий, но их ручной сбор из тысяч статей становится невозможным.
Quinex основан на открытых языковых моделях, что делает его доступным и легко адаптируемым без дорогостоящей инфраструктуры. Точность системы достигает около 98% для чисел и единиц измерения и выше 80% для классификации свойств, благодаря специально подготовленным обучающим наборам.
Проверка инструмента проводилась на тысячах научных аннотаций из разных дисциплин — от энергетики до биомедицины. Quinex не заменяет исследователя, а служит вспомогательным инструментом, позволяя быстро находить нужные данные и прослеживать их до оригинального текста.
Дальнейшие планы включают расширение набора данных и улучшение адаптации под конкретные области, а также открытый доступ к проекту для международного сообщества учёных.