arXiv · 01.07.2026 ·Обучение и дообучение

ZO-Act: новый метод эффективного дообучения LLM без обратного распространения ошибки

Исследователи представили ZO-Act — метод дообучения больших языковых моделей с использованием оптимизации нулевого порядка. Технология позволяет обновлять веса моделей без классического обратного распространения ошибки, что критично при ограниченных ресурсах памяти. Метод ограничивает возмущения весов фиксированными подпространствами, основанными на активациях, что значительно снижает дисперсию оценок и повышает качество обучения по сравнению с традиционными подходами.

Традиционные методы оптимизации нулевого порядка часто полагаются на случайное построение низкоразмерных подпространств, что приводит к нестабильности и потере точности при масштабировании. ZO-Act решает эту проблему, используя информацию об активациях нейронной сети для более точного выбора направлений оптимизации. Это позволяет эффективно адаптировать модели в условиях, когда доступ к градиентам затруднен или требует чрезмерных вычислительных затрат.

Подход демонстрирует высокую эффективность в сценариях, где стандартное обучение становится невозможным из-за архитектурных ограничений или нехватки видеопамяти. Использование активаций для формирования подпространств позволяет сфокусировать процесс обучения на наиболее значимых параметрах, сокращая количество необходимых итераций и повышая общую сходимость алгоритма.

Ключевые факты

Метод ZO-Act использует активации модели для формирования низкоразмерных подпространств при оптимизации.
Технология исключает необходимость вычисления полных градиентов через обратное распространение ошибки.
Подход снижает дисперсию оценок, характерную для классических методов оптимизации нулевого порядка.
Метод оптимизирован для работы в условиях жестких ограничений по объему доступной памяти.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука HRM-Text: новый подход к эффективному дообучению языковых моделей Исследователи представили HRM-Text — метод повышения эффективности предобучения языковых моделей, который выходит за рамки простого увеличения вычислительных мощностей. Авторы предлагают оптимизированный подход к обработке данных и архитектурным изменениям, позволяющий достичь высокой производительности при меньших затратах ресурсов. Это значимый шаг в сторону оптимизации обучения LLM, делающий создание мощных моделей более доступным и экономически оправданным. arXiv · Машинное обучение Метод ZEBRA улучшает обобщающую способность аудио-языковых моделей Исследователи представили метод ZEBRA, решающий проблему деградации аудио-языковых моделей при переходе от базовых классов к новым. Традиционное обучение промптов часто снижает точность на неизученных данных, однако ZEBRA использует регуляризацию энтропии для сохранения стабильности. Это позволяет моделям эффективно адаптироваться к новым категориям, не теряя при этом производительности на уже известных объектах в режиме zero-shot. arXiv · Машинное обучение Адаптивный выбор токенов для оптимизации обучения LLM с подкреплением Исследователи представили метод Relative Surprisal Index (RSI) для оптимизации обучения LLM с помощью подкрепления с проверяемыми наградами (RLVR). Новый подход позволяет динамически определять, какие токены в процессе генерации рассуждений наиболее важны для достижения правильного результата. Это снижает вычислительные затраты и повышает эффективность обучения моделей при решении сложных логических задач. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс. arXiv · Машинное обучение Новый метод оптимизации градиента для ускорения обучения нейросетей Исследователи представили метод Stochastic Gradient Optimization with Model-Assisted Sampling, направленный на снижение дисперсии при оценке стохастического градиента. Новый подход позволяет эффективнее балансировать между скоростью сходимости и качеством обобщения моделей, минимизируя шум, неизбежно возникающий при использовании стандартных мини-пакетных методов обучения в глубоком обучении. arXiv · Обучение и дообучение Метод FORCE для эффективного обучения VLA-моделей через подкрепление Исследователи представили метод FORCE для дообучения Vision-Language-Action моделей с использованием обучения с подкреплением. Подход решает проблему низкой эффективности сбора данных и «катастрофического забывания» при переходе от имитационного обучения к RL. Алгоритм использует калиброванный прогрев Q-функции и самодистилляцию, что позволяет моделям превосходить ограничения исходных обучающих датасетов и быстрее адаптироваться к сложным задачам управления. arXiv · Исследования и наука QuasiMoTTo: новый метод оптимизации вычислительных затрат при генерации ответов LLM Исследователи представили метод QuasiMoTTo, позволяющий повысить эффективность масштабирования вычислений при инференсе языковых моделей. Вместо независимой генерации множества вариантов ответа, которая приводит к избыточности, новый подход использует квазислучайные последовательности для более равномерного покрытия пространства решений. Это позволяет достичь более высокого качества ответов при тех же затратах вычислительных ресурсов или сократить время генерации. arXiv · Машинное обучение Ускорение конформного предсказания через аппроксимацию Leave-One-Out Исследователи представили новый метод оптимизации конформного предсказания, который значительно снижает вычислительные затраты при оценке неопределенности моделей. За счет использования аппроксимации метода Leave-One-Out (LOO) удалось избежать необходимости полного переобучения модели для каждого примера, сохраняя при этом высокую точность и статистическую надежность прогнозов, что критически важно для внедрения ИИ в высоконагруженные системы. arXiv · Машинное обучение Новый взгляд на оптимизатор Muown для обучения трансформеров Исследователи проанализировали математические принципы работы оптимизатора Muown, который активно применяется для предварительного обучения трансформеров. Этот метод разделяет весовые матрицы на два компонента: амплитуды строк и ненормализованное направление. Для обновления амплитуд используется алгоритм Adam, а для направления — оптимизатор Muon. Такая архитектура позволяет эффективно управлять процессом обучения, обеспечивая высокую стабильность и скорость сходимости моделей. arXiv · Исследования и наука Новый метод обучения видеомоделей Shell-LCC без внешних функций вознаграждения Исследователи представили метод Shell-LCC, позволяющий оптимизировать диффузионные модели для генерации видео без использования внешних моделей вознаграждения или дорогостоящего обучения с подкреплением (RLHF/DPO). Авторы доказывают, что структура данных сама по себе содержит скрытые сигналы, которые можно использовать для улучшения качества генерации, что значительно снижает вычислительные затраты и зависимость от человеческой разметки при сохранении высокой детализации контента.

← Все материалы