arXiv · 16.06.2026 ·Машинное обучение

Новый метод обучения нейросетей без жесткого копирования знаний

Исследователи предложили альтернативу традиционному дистилляции знаний (knowledge distillation), где маленькие модели пытаются копировать логиты больших. Проблема в том, что это делает их слишком узкоспециализированными, ухудшая обобщающую способность.

Новый подход, Zone of Proximal Policy Optimization (ZPPO), использует принципы reinforcement learning. Вместо того чтобы заставлять студента копировать логиты учителя, он обучается на собственных развертываниях, что позволяет лучше обобщать знания.

Авторы сравнили ZPPO с традиционными методами на нескольких бенчмарках и показали, что новый метод демонстрирует лучшие результаты в задачах, не связанных с обучающими данными. Это может стать важным шагом в разработке более универсальных и надежных моделей.

Работа опубликована на arXiv и доступна для скачивания.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс. arXiv · Машинное обучение Новый подход к дистилляции знаний через классы эквивалентности представлений Исследователи предложили метод дистилляции знаний, который отказывается от прямого копирования логитов или скрытых признаков учителя. Вместо этого предлагается обучать студента распознавать классы эквивалентности представлений учителя, учитывая их инвариантность к ортогональным преобразованиям и масштабированию. Это позволяет более гибко передавать знания между моделями, игнорируя произвольные координаты в пространстве признаков. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Машинное обучение Новые протоколы для кросс-задачного обучения на графовых нейросетях Исследователи представили методологию для эффективного переноса знаний между различными задачами на одном и том же графе, такими как классификация узлов и предсказание связей. Авторы работы выявили несоответствия в существующих подходах к оценке и предложили унифицированные протоколы, которые позволяют более надежно использовать накопленные данные для обучения моделей в условиях ограниченной разметки. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. Hacker News · Машинное обучение Обучение моделей на основе опыта вместо кураторских датасетов Исследователи предлагают сменить парадигму обучения нейросетей, переходя от статичных размеченных датасетов к обучению на основе «опыта» в интерактивной среде. Такой подход позволяет моделям самостоятельно исследовать пространство решений, минимизируя зависимость от дорогостоящей ручной разметки данных и повышая адаптивность алгоритмов к непредсказуемым сценариям, с которыми они сталкиваются в процессе реальной эксплуатации. arXiv · Машинное обучение Новый метод устранения искажений при дистилляции моделей Исследователи представили метод борьбы с искажениями при обучении моделей методом On-policy distillation (OPD). В традиционных подходах студент обучается на собственных траекториях, используя вероятности токенов от учителя. Авторы доказали, что локальная интерпретация этих вероятностей ошибочна, так как она сильно зависит от итогового результата всей траектории, что приводит к некорректному обучению на ошибках. Hacker News · Машинное обучение История и эволюция метода дистилляции моделей в ИИ Дистилляция моделей стала ключевым методом оптимизации нейросетей, позволяющим переносить знания от крупных «учителей» к компактным «ученикам». Этот подход значительно сокращает вычислительные затраты при сохранении высокой точности предсказаний. В последние годы техника эволюционировала от классических архитектур до современных методов сжатия больших языковых моделей, становясь стандартом для эффективного инференса в продакшене. arXiv · Машинное обучение Повышение устойчивости нейросетевых алгоритмов реконструкции данных Исследователи представили новый фреймворк для решения обратных задач в машинном обучении, использующий методы дистрибутивно-робастной оптимизации (DRO). Подход позволяет нейросетям сохранять точность реконструкции даже при значительных отклонениях характеристик шума в тестовых данных от тех, что использовались при обучении, решая проблему слабой обобщающей способности стандартных моделей в условиях изменчивой среды.

← Все материалы