Исследователи представили метод Fisher Alignment, позволяющий эффективно выбирать обучающие данные для LLM без необходимости проведения полноценного обучения. Подход решает проблему «активационной темноты» в специализированных доменах, таких как геномика и химия, где модели используют общие токенизаторы, но работают с принципиально разными целевыми задачами, что затрудняет оценку качества данных через стандартные метрики сходства представлений.
Метод опирается на анализ геометрии ошибок, обусловленных метками, что позволяет предсказывать полезность конкретных корпусов данных для дообучения моделей. В условиях, когда традиционные методы оценки сходства векторов активаций оказываются неинформативными, Fisher Alignment предлагает математически обоснованный способ фильтрации источников информации. Это значительно снижает вычислительные затраты на подготовку датасетов для узкоспециализированных языковых моделей.
Использование данного подхода особенно актуально для работы с научными строковыми данными, такими как SMILES (химические формулы) или последовательности белков. В этих областях структура токенизации часто остается неизменной, однако распределение вероятностей для предсказания следующего токена сильно варьируется в зависимости от специфики биологического или химического контекста, что требует более точных инструментов отбора данных.
Ключевые факты
- Метод Fisher Alignment позволяет проводить отбор данных без запуска процесса обучения (training-free).
- Основная область применения — научные домены с общими токенизаторами: геномика, протеомика и хемоинформатика.
- Алгоритм преодолевает ограничения метрик сходства представлений в условиях «активационной темноты».
- Техника оптимизирует выбор обучающих корпусов для моделей, работающих с последовательностями SMILES и биологическими данными.