Google Gemma 4 26B-A4B: запуск мощной нейросети на ноутбуке с LM Studio 0.4.0

Ещё недавно для работы с крупными нейросетями требовались мощные дата-центры. Сегодня же модель Google Gemma 4 26B-A4B с архитектурой mixture-of-experts (128 экспертов, 8 активных на токен) доступна на ноутбуках с 48 ГБ объединённой памяти, обеспечивая качество, близкое к гигантам вроде Qwen 3.5 с 397 млрд параметров.

Обновлённая LM Studio 0.4.0 предлагает удобный запуск моделей локально через консольную утилиту lms и фоновый демон llmster. Появился эндпойнт, совместимый с Anthropic, что позволяет направлять запросы Claude Code на локальный сервер с Gemma 4.

Gemma 4 26B-A4B представляет собой эффективное сочетание 26 млрд параметров, из которых для каждого токена активируются всего 4 млрд, что даёт баланс между производительностью и ресурсами. На MacBook Pro с чипом M4 Pro и 48 ГБ памяти модель выдаёт около 51 токена в секунду, обеспечивая комфортную работу с контекстом до 256К токенов и поддержку компьютерного зрения.

LM Studio 0.4.0 разделила движок инференса в отдельный сервер, что улучшило работу через терминал и на удалённых серверах. Поддержка непрерывного батчинга и stateful REST API позволяет одновременно обрабатывать несколько запросов и хранить историю диалогов.

Загрузка модели, настройка параметров контекста и распределение нагрузки по GPU теперь управляются командой lms. Функция автоматичесой выгрузки (TTL) освобождает память при простое, а поддержка flash attention оптимизирует использование памяти при больших контекстах.

Локальный запуск Claude Code через Gemma 4 стал возможен благодаря совместимости с Anthropic API. Это обеспечивает приватную работу без интернета и экономию на облачных сервисах, хотя скорость генерации уступает облачным решениям.

Apple Silicon с объединённой памятью позволяет эффективно использовать модель без излишних накладных расходов, а энергопотребление остаётся умеренным (около 23,5 Вт). Такой подход открывает новые возможности для персонального использования мощных нейросетей без необходимости в серверных фермах.

Итог: архитектура mixture-of-experts и обновления LM Studio делают запуск сложных моделей доступным на обычном ноутбуке. Это шаг к демократизации ИИ, позволяющий работать с продвинутыми моделями локально, экономя ресурсы и обеспечивая приватность.