Предложен новый «закон уплотнения», согласно которому максимальная плотность способностей больших языковых моделей удваивается примерно каждые 3,5 месяца. Введена метрика, показывающая, сколько параметров потребовалось бы референсной модели для достижения аналогичного качества, что позволяет оценить «экономичность» различных моделей. Анализ нескольких бенчмарков подтверждает устойчивый рост плотности, указывая на важность density-optimal обучения, которое перемещает акцент с простого увеличения параметров на оптимизацию архитектуры и методов. Это приводит к резкому удешевлению инференса, что открывает новые возможности для локальной работы моделей на потребительском оборудовании. Также отмечается, что методы компрессии не всегда обеспечивают ожидаемую плотность, что требует тщательного подхода к обучению и проектированию языковых моделей.
Опубликовано вНовости