Андрей Карпатый, ML-инженер и бывший разработчик OpenAI, представил новый проект под названием nanochat. Этот открытый проект предназначен для создания языковых моделей полного цикла (LLM). Обучение модели обойдется примерно в 100 долларов при аренде облачных вычислительных мощностей.
Nanochat разработан в рамках курса LLM101n от Eureka Labs и включает в себя все необходимые инструменты для обучения, такие как токенизатор на Rust, систему подкачки датасета FineWeb-EDU, а также скрипты для финальной настройки, инференса и сбора метрик. Проект также предлагает встроенный веб-интерфейс для общения с готовой моделью.
Для обучения требуется инстанс с 8 видеокартами Nvidia H100, что позволяет завершить процесс за около четырех часов. Аренда облачных мощностей обойдется в среднем в 24 доллара за час. Процесс запуска обучения осуществляется с помощью скрипта speedrun.sh, а веб-чат доступен через команду python -m scripts.chat_web.
Карпатый подчеркивает, что основная цель проекта — создать компактный и удобный цикл обучения, который можно запустить одной командой. Это делает его идеальным для доработки и обучения, а также для создания более мощных нейросетей с интеграциями. Глобальная задача проекта — повысить качество микромоделей с бюджетом до 1000 долларов. Код nanochat доступен на GitHub с полным набором файлов и инструкций.
