Исследователи представили HERMES — фреймворк для многоуровневой разметки данных, решающий проблему жестких таксономий при подготовке обучающих выборок. В отличие от традиционных методов, фиксирующих данные в рамках одной семантической оси, HERMES позволяет динамически изменять гранулярность меток. Это дает возможность более гибко управлять составом обучающих смесей и повышать качество моделей без необходимости полной переразметки датасетов.
Современные методы смешивания данных (data-mixing) часто ограничены предопределенными группами, такими как тематические категории или форматы документов. Изменение разрешения или добавление новых критериев в таких системах требует трудоемкого перестроения всей структуры данных. Авторы работы доказывают, что текущим «бутылочным горлышком» в обучении нейросетей является именно статичность системы меток, а не алгоритмы смешивания как таковые.
Система HERMES предлагает иерархический подход, где данные могут быть классифицированы одновременно по нескольким осям и уровням детализации. Это позволяет разработчикам точечно настраивать веса различных доменов знаний в процессе претрейна, обеспечивая более эффективное использование вычислительных ресурсов и улучшение характеристик итоговых моделей. Метод упрощает эксперименты с составом обучающих корпусов, делая процесс подготовки данных более масштабируемым.
Ключевые факты
- HERMES устраняет привязку к единственной семантической оси, позволяя гибко менять гранулярность разметки.
- Система решает проблему необходимости полной переразметки датасета при изменении параметров обучения.
- Подход ориентирован на оптимизацию состава обучающих смесей (data mixtures) для больших языковых моделей.
- Исследование сфокусировано на преодолении ограничений существующих таксономий, основанных на происхождении, теме или формате данных.