Разработчик представил на GitHub уникальный проект под названием Z80-μLM — языковую модель, которая занимает всего 40 КБ и может запускаться на 8-битном процессоре Z80 с 64 КБ оперативной памяти. Эта 2-битная квантованная модель включает в себя все компоненты: вывод, веса и интерфейс чата, помещенные в файл .COM.
В связи с ограничениями памяти автор применил несколько компромиссных решений, включая хеширование триграмм, которое позволяет справляться с опечатками, но нарушает порядок слов, а также использовал 16-битные целочисленные вычисления и тщательную предобработку данных. Ключевым аспектом разработки стало обучение, которое учитывает квантование и моделирует ограничения вывода. Модель была обучена с учетом квантования как для чисел с плавающей точкой, так и для целых, с регулярной оценкой её эффективности после каждого этапа.
По словам автора, на генерацию данных для 20 вопросов было затрачено всего несколько долларов на API Claude. Модель можно обучать на Python и экспортировать в бинарные файлы формата CP/M .COM. «Хотя она не предназначена для написания электронных писем, её можно обучить играть в упрощённую версию игры “20 вопросов” и иногда поддерживать простые, но ясные беседы с выраженной индивидуальностью», — добавил он.