Новая модель ИИ от Андрея Карпати

Андрей Карпати, экс-директор по искусственному интеллекту в Tesla, разработал модель, которая по результатам бенчмарка CORE обошла GPT-2, затратив всего $73 и 3 часа на одном из восьми GPU H100. Для сравнения, OpenAI тренировала свою оригинальную GPT-2 (с 1,5 млрд параметров) в 2019 году на 32 TPU v3 на протяжении недели, потратив около $43 000.

Снижение стоимости на 600 раз за семь лет стало возможным благодаря усовершенствованиям на всех уровнях: использование более современных GPU, оптимизированного программного обеспечения и алгоритмических новшеств, таких как оптимизатор Muon и скользящее окно внимания. Карпати отмечает, что каждый год затраты на обучение подобной модели уменьшаются на 40% по сравнению с предыдущим.

Его проект nanochat включает около 1000 строк кода, используя 768 млн параметров и 24 слоя. В рамках соревнования на лидерборде участники стремятся обучить модель до уровня GPT-2 на восьми H100. Рекорд времени — 3,04 часа, что показывает колоссальный прогресс в области ИИ.