arXiv · 02.07.2026 ·Машинное обучение

HERMES: новый подход к многоуровневой разметке данных для обучения LLM

Исследователи представили HERMES — фреймворк для многоуровневой разметки данных, решающий проблему жестких таксономий при подготовке обучающих выборок. В отличие от традиционных методов, фиксирующих данные в рамках одной семантической оси, HERMES позволяет динамически изменять гранулярность меток. Это дает возможность более гибко управлять составом обучающих смесей и повышать качество моделей без необходимости полной переразметки датасетов.

Современные методы смешивания данных (data-mixing) часто ограничены предопределенными группами, такими как тематические категории или форматы документов. Изменение разрешения или добавление новых критериев в таких системах требует трудоемкого перестроения всей структуры данных. Авторы работы доказывают, что текущим «бутылочным горлышком» в обучении нейросетей является именно статичность системы меток, а не алгоритмы смешивания как таковые.

Система HERMES предлагает иерархический подход, где данные могут быть классифицированы одновременно по нескольким осям и уровням детализации. Это позволяет разработчикам точечно настраивать веса различных доменов знаний в процессе претрейна, обеспечивая более эффективное использование вычислительных ресурсов и улучшение характеристик итоговых моделей. Метод упрощает эксперименты с составом обучающих корпусов, делая процесс подготовки данных более масштабируемым.

Ключевые факты

HERMES устраняет привязку к единственной семантической оси, позволяя гибко менять гранулярность разметки.
Система решает проблему необходимости полной переразметки датасета при изменении параметров обучения.
Подход ориентирован на оптимизацию состава обучающих смесей (data mixtures) для больших языковых моделей.
Исследование сфокусировано на преодолении ограничений существующих таксономий, основанных на происхождении, теме или формате данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы