The Decoder · 30.06.2026 ·Инференс и железо

Meituan обучила модель на 1,6 трлн параметров без использования чипов Nvidia

Китайская технологическая компания Meituan представила модель LongCat-2.0, насчитывающую 1,6 триллиона параметров. Обучение системы было полностью проведено на вычислительных мощностях китайского производства, без использования графических процессоров Nvidia. Этот кейс демонстрирует возможность масштабирования обучения нейросетей в условиях экспортных ограничений на передовое западное оборудование, опираясь исключительно на внутреннюю инфраструктуру и локальные аппаратные решения.

Технический стек проекта базируется на оптимизированных кластерах, состоящих из китайских ускорителей, что является значимым сдвигом для индустрии. Разработчики сфокусировались на создании эффективных алгоритмов распределенного обучения, которые позволяют нивелировать разницу в производительности между проприетарными чипами и западными аналогами. Успех LongCat-2.0 подтверждает жизнеспособность стратегии импортозамещения в сегменте высокопроизводительных вычислений для обучения моделей уровня MoE (Mixture of Experts).

Данное достижение подчеркивает зрелость китайской экосистемы разработки ИИ, где программные оптимизации становятся ключевым фактором успеха при работе с ограниченным доступом к передовому «железу». Использование архитектуры, способной эффективно работать на альтернативных аппаратных платформах, открывает новые возможности для масштабирования крупных языковых моделей в регионах, находящихся под технологическими санкциями.

Ключевые факты

Модель LongCat-2.0 содержит 1,6 триллиона параметров, что ставит её в один ряд с крупнейшими мировыми разработками.
Процесс обучения был полностью реализован на китайских чипах, исключая использование оборудования Nvidia.
Проект доказывает эффективность программных методов оптимизации для преодоления аппаратных ограничений.
Meituan подтвердила возможность создания инфраструктуры для обучения сверхкрупных моделей без зависимости от западных поставщиков полупроводников.

Источник: The Decoder

Обсудить с ИИ

Похожие материалы

Hacker News · ИИ в бизнесе Китайский гигант Meituan обучил новую ИИ-модель на отечественных чипах Китайская технологическая компания Meituan представила новую языковую модель, процесс обучения которой был полностью реализован на чипах локального производства. Этот шаг демонстрирует способность крупных корпораций КНР адаптировать инфраструктуру для создания сложных ИИ-систем в условиях экспортных ограничений на передовое западное оборудование, обеспечивая технологическую независимость своих ключевых бизнес-процессов в сфере доставки и сервисов. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Hacker News · Модели и релизы Cursor обучает модель с 1.5 триллионами параметров на 100 тысячах GPU Компания Cursor анонсировала обучение новой языковой модели с 1.5 триллионами параметров. Для этого процесса используется 100 тысяч графических процессоров, что делает этот проект одним из самых масштабных в области искусственного интеллекта. Hacker News · Инференс и железо Huawei адаптировала чипы Ascend для обучения моделей DeepSeek Китайская компания Huawei успешно адаптировала свои графические процессоры серии Ascend для обучения и дообучения передовых языковых моделей, включая архитектуру DeepSeek. Этот технологический сдвиг позволяет снизить зависимость от зарубежных аппаратных решений, которые ранее были основным стандартом для тренировки сложных нейросетей. Использование локальной инфраструктуры стало возможным благодаря оптимизации программного стека, который теперь обеспечивает стабильную работу с современными алгоритмами глубокого обучения. Hacker News · Модели и релизы Китайские ИИ-модели сокращают технологический разрыв с лидерами рынка Китайские разработчики ИИ значительно сократили отставание от ведущих западных лабораторий, таких как OpenAI и Anthropic. Новые модели из КНР демонстрируют результаты, сопоставимые с топовыми западными аналогами в тестах на логику, программирование и работу с текстом, что меняет глобальный ландшафт конкуренции в сфере генеративного искусственного интеллекта и ставит под вопрос технологическое доминирование США. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Hacker News · Модели и релизы Консорциум Europa представил модель с 400 миллиардами параметров Европейский консорциум Europa одержал победу в профильном конкурсе ИИ-разработок, представив языковую модель с 400 миллиардами параметров. Проект стал ответом на доминирование американских технологических гигантов в области создания крупномасштабных нейросетевых архитектур. Разработка ориентирована на обеспечение технологического суверенитета и создание высокопроизводительных инструментов, адаптированных под европейские стандарты и требования к данным. Hacker News · Прогнозы и тренды Экологический след обучения крупных языковых моделей Обучение современных нейросетей требует значительных вычислительных мощностей, что напрямую влияет на потребление электроэнергии и выбросы углекислого газа. Основная часть энергозатрат приходится на работу дата-центров, где тысячи графических процессоров работают непрерывно в течение недель или месяцев. Эффективность этого процесса зависит от архитектуры модели, используемых алгоритмов оптимизации и географического расположения серверов, так как источники энергии в разных регионах имеют разный углеродный след. AI | VentureBeat · Разработка и инструменты NousCoder-14B: открытая модель для кодинга от Nous Research Nous Research, стартап в области открытого ИИ, поддержанный венчурной фирмой Paradigm, представил новую модель для программирования NousCoder-14B. Модель была обучена всего за четыре дня на 48 графических процессорах Nvidia B200 и демонстрирует конкурентоспособные результаты с более крупными проприетарными системами. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс.

← Все материалы