Hacker News · 23.06.2026 ·Исследования и наука

Технологический прорыв DeepSeek в архитектуре нейросетей

Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов.

Ключевым достижением стало внедрение метода Multi-head Latent Attention (MLA), который значительно сокращает объем памяти, необходимой для хранения контекста в процессе генерации текста. Это позволяет моделям работать быстрее и эффективнее на стандартном серверном оборудовании, снижая стоимость инференса в разы по сравнению с традиционными плотными архитектурами. Подобный подход решает одну из главных проблем индустрии — высокую стоимость эксплуатации ИИ-систем при масштабировании на миллионы пользователей.

Результаты тестов показывают, что модель демонстрирует производительность на уровне ведущих мировых аналогов, при этом требуя значительно меньше ресурсов для обучения и поддержки. Разработка доказывает эффективность алгоритмических оптимизаций, позволяющих достигать результатов, сопоставимых с гигантскими моделями, без необходимости наращивать количество видеокарт до бесконечности. Это открывает путь к более доступному и экономически оправданному внедрению сложных ИИ-решений в бизнес-процессы.

Источник: Hacker News

Похожие материалы

Hacker News · Инференс и железо Huawei адаптировала чипы Ascend для обучения моделей DeepSeek Китайская компания Huawei успешно адаптировала свои графические процессоры серии Ascend для обучения и дообучения передовых языковых моделей, включая архитектуру DeepSeek. Этот технологический сдвиг позволяет снизить зависимость от зарубежных аппаратных решений, которые ранее были основным стандартом для тренировки сложных нейросетей. Использование локальной инфраструктуры стало возможным благодаря оптимизации программного стека, который теперь обеспечивает стабильную работу с современными алгоритмами глубокого обучения. Hacker News · Обучение и дообучение Опыт обучения компактных высокопроизводительных моделей Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. arXiv · Модели и релизы Как улучшить точность небольших моделей кода без переобучения Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода. Hacker News · Исследования и наука Прорывы в архитектуре LLM и развитие нейроинтерфейсов Исследователи фиксируют значительный прогресс в решении проблемы «узкого горлышка» при работе больших языковых моделей. Новые подходы к оптимизации архитектуры позволяют существенно ускорить обработку данных и повысить эффективность вычислений, что критически важно для масштабирования систем с интенсивным использованием контекста. Эти изменения направлены на преодоление ограничений текущих трансформеров, которые требуют огромных вычислительных мощностей при увеличении длины последовательностей. Hacker News · Модели и релизы Как мелкие модели могут конкурировать с крупными Исследователи из DeepClause предложили метод, позволяющий мелким языковым моделям демонстрировать производительность, сопоставимую с крупными аналогами. В статье на Substack они объясняют, что ключевым фактором является не количество параметров, а эффективность архитектуры и стратегии обучения. Hacker News · Модели и релизы Релиз компактной модели для транскрибации китайского языка Разработчики представили специализированную модель для распознавания речи на китайском языке с параметрами 150 млн. Решение ориентировано на высокую скорость работы и оптимизировано для задач транскрибации в реальном времени. Ключевой особенностью системы является встроенная функция автоматического определения метаданных, что позволяет извлекать контекстную информацию непосредственно в процессе обработки аудиопотока. Artificial intelligence – MIT Technology Review · Машинное обучение Стартап Subquadratic заявляет о прорыве в архитектуре языковых моделей Майамский стартап Subquadratic вышел из режима скрытности с заявлением о решении фундаментальной математической проблемы, ограничивавшей развитие больших языковых моделей на протяжении последних десяти лет. Речь идет о преодолении вычислительного барьера, связанного с квадратичной сложностью механизмов внимания в архитектуре Transformer. Традиционно потребность в ресурсах при обработке контекста растет пропорционально квадрату длины последовательности, что создает серьезные препятствия для работы с длинными документами и большими объемами данных. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. Hacker News · Исследования и наука Исследование: ограничения механизма внимания в современных LLM Ученые проанализировали эффективность архитектуры трансформеров при выполнении задач, требующих длительной концентрации на контексте. В ходе экспериментов выяснилось, что даже самые продвинутые языковые модели демонстрируют снижение точности при обработке длинных последовательностей, если ключевая информация распределена неравномерно или скрыта в середине текста. Этот феномен, известный как «проблема потерянного в середине» (lost in the middle), ставит под вопрос надежность механизмов внимания при работе с большими объемами данных.

← Все материалы