Ling-1T: триллион параметров для эффективного рассуждения на 128K токенов

Компания InclusionAI представила Ling-1T, новейшую модель, построенную на архитектуре Ling 2.0, которая оптимизирована для эффективного рассуждения. Эта модель, имеющая триллион параметров, использует метод MoE, где лишь около 5% нейронов активируются для обработки каждого токена, что возможно благодаря поддержке контекста до 128 K токенов и обучению FP8. Ling-1T была обучена на 20 триллионах токенов, из которых 40% составляют задачи, требующие рассуждений. Модель демонстрирует выдающиеся результаты в кодовых бенчмарках, таких как mbpp и LiveCodeBench, опережая такие модели, как GPT-5 и DeepSeek-V3. Также в математических тестах AIME-2025 и Omni-Math она показывает прирост точности на 5-10%. В дополнение, новая система LPO (Linguistic Policy Optimization) оптимизирует поведение модели, основываясь на смысловых предложениях. Ling-1T подчеркивает, что масштаб и эффективность могут сосуществовать, обеспечивая экономное и детерминированное рассуждение от триллионной модели.

Вопрос-ответ

Какой основной новизной обладает Ling-1T и чем она отличается от предшественников?

<p Ling-1T реализована на архитектуре Ling 2.0 и использует метод MoE, где активируется примерно 5% нейронов для обработки каждого токена, что обеспечивает эффективное рассуждение в условиях большого масштаба и длинного контекста до 128K токенов. Модель обучена на 20 триллионах токенов с упором на задачи рассуждений и использует FP8 для повышения эффективности вычислений. Это сочетание масштаба, эффективности и улучшенных возможностей рассуждения выделяет её на фоне существующих аналогов.

Каковы основные показатели производительности Ling-1T на задачах рассуждений и кодирования?

<p Ling-1T демонстрирует выдающиеся результаты на кодовых бенчмарках mbpp и LiveCodeBench, опережая такие модели, как GPT-5 и DeepSeek-V3. В математических тестах AIME-2025 и Omni-Math достигается прирост точности в диапазоне 5-10%. Дополнительно система LPO (Linguistic Policy Optimization) улучшает поведение модели на смысловых предложениях, что способствует более надежным и детерминированным рассуждениям в рамках trillion-параметров.

Что такое LPO и как она влияет на работу Ling-1T?

<p LPO (Linguistic Policy Optimization) — это система оптимизации поведения модели, основанная на смысловых предложениях, которая направлена на более предсказуемое и устойчивое рассуждение. Она помогает регулировать ответную генерацию и выбор стратегий рассуждения, снижая риск неожиданных ошибок и увеличивая детерминированность вывода при работе с длинным контекстом и сложными задачами.