arXiv · 28.06.2026 ·Машинное обучение

Оценка априорных распределений данных в табличных foundation-моделях

Исследователи представили методологию для оценки априорных распределений данных (data priors), которые лежат в основе обучения табличных foundation-моделей. Авторы работы анализируют, как именно выбор генеративных распределений при претрейнинге влияет на итоговую производительность моделей, предлагая стандартизированный подход для сравнения различных архитектур и стратегий обучения, что ранее оставалось «черным ящиком» в разработке табличных ИИ-систем.

Табличные данные остаются критически важным сегментом для корпоративного сектора, однако развитие foundation-моделей в этой области отстает от языковых аналогов. Основная сложность заключается в отсутствии единых стандартов для оценки того, как синтетические данные, используемые на этапе предварительного обучения, формируют способность модели к обобщению на реальных наборах данных. Новое исследование фокусируется на методах декомпозиции этих распределений, позволяя изолировать влияние априорных данных от архитектурных особенностей нейросети.

Предложенный подход позволяет разработчикам точнее настраивать пайплайны обучения, понимая, какие именно характеристики распределений данных способствуют лучшему переносу знаний на downstream-задачи. Это шаг к созданию более предсказуемых и эффективных моделей для работы с табличной информацией, которые смогут конкурировать с классическими градиентными бустингами в задачах классификации и регрессии.

Ключевые факты

Исследование направлено на решение проблемы отсутствия независимой оценки data priors в табличных foundation-моделях.
Авторы разработали методологию для сравнения различных стратегий генерации данных, используемых при претрейнинге.
Работа помогает количественно оценить вклад априорных данных в поведение модели на целевых задачах.
Исследование опубликовано на платформе arXiv под номером 2606.29241v1.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Безопасность и алайнмент Уязвимости конфиденциальности в табличных foundation-моделях Исследователи выявили критические риски конфиденциальности в табличных foundation-моделях, использующих механизм внимания. Несмотря на обучение на синтетических данных, модели подвержены утечкам чувствительной информации при инференсе. В процессе in-context learning данные, передаваемые в качестве размеченных примеров, могут быть восстановлены через анализ весов внимания, что ставит под угрозу безопасность высокорисковых запросов в корпоративных системах. arXiv · Машинное обучение Новый подход к устранению предвзятости в моделях машинного обучения Исследователи представили методологию борьбы с предвзятостью в алгоритмах, которая учитывает пересечение нескольких защищаемых атрибутов, таких как раса и гендер. Традиционные методы часто не справляются с ситуациями, когда дискриминация проявляется только при сочетании нескольких факторов, что приводит к снижению точности моделей для определенных групп населения. Основная проблема заключается в нехватке репрезентативных данных для таких подгрупп и отсутствии четких математических метрик для оценки справедливости. arXiv · Машинное обучение Математические риски нелинейной агрегации градиентов в обучении моделей Исследователи проанализировали влияние нелинейной агрегации градиентов на сходимость и обобщающую способность моделей. В современных пайплайнах, включающих адаптивность, приватность и робастность, стандартные гарантии выпуклого обучения часто нарушаются из-за потери монотонности оператора обновления. Работа доказывает, что нелинейные методы агрегации могут приводить к нестабильности обучения, что требует пересмотра подходов к оптимизации сложных систем. arXiv · Исследования и наука Исследование методов оценки графовых фундаментальных моделей Исследователи представили комплексный анализ производительности графовых фундаментальных моделей (GFM), сфокусировавшись на задачах прогнозирования свойств узлов. Работа выявляет критические недостатки в текущих подходах к тестированию, предлагая стандартизированную методологию для объективного сравнения архитектур. Авторы демонстрируют, что многие современные модели показывают нестабильные результаты при смене наборов данных, что требует пересмотра подходов к их обучению и валидации. arXiv · Машинное обучение Новое исследование законов масштабирования в квадратичных нейронных сетях Исследователи представили работу, анализирующую зависимость обобщающей способности нейронных сетей от количества обучаемых параметров и объема данных. В отличие от предыдущих моделей, фокусирующихся на фиксированных признаках или бесконечной ширине, авторы изучили динамику обучения в квадратичных сетях. Результаты уточняют, как именно архитектурная ширина и структура данных совместно влияют на итоговую производительность моделей при масштабировании. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс. arXiv · Машинное обучение Новый метод дообучения моделей речи для специфичных задач Исследователи предложили новый подход к дообучению foundation-моделей речи, которые изначально обучаются на больших объёмах неразмеченных данных. Такие модели создают универсальные представления, полезные для разных задач, но при этом кодируют информацию о ключевых переменных речи распределённо. Это означает, что для конкретных задач требуется только часть этой информации. arXiv · Исследования и наука Математический анализ обобщающей способности трансформеров в задачах дистрибутивной регрессии Исследователи представили теоретический анализ того, как архитектура Transformer справляется с задачами дистрибутивной регрессии. Работа фокусируется на понимании механизмов обобщения модели, которые позволяют эффективно работать с данными, представленными в виде распределений. Авторы математически обосновывают границы ошибок и условия, при которых трансформеры демонстрируют высокую предсказательную точность, что критически важно для понимания их успеха в глубоком обучении. arXiv · Исследования и наука Новый подход к выбору вероятностных моделей для временных рядов Исследователи представили новый метод выбора оптимальных вероятностных моделей при работе с наборами временных рядов. Авторы анализируют использование надлежащих правил оценки (proper scoring rules) для агрегирования результатов на множестве временных рядов. Работа предлагает уточненные статистические подходы, позволяющие более точно оценивать качество прогнозирования моделей в условиях сложной динамики данных и высокой волатильности. arXiv · Машинное обучение Новый метод оценки обобщающей способности моделей через PAC-Bayes Исследователи представили новый подход к дерандомизации PAC-Bayes оценок для функций потерь с высокой степенью гладкости. Традиционные методы оценки обобщающей способности моделей часто опираются на вероятностные предсказатели, что затрудняет их прямое применение к детерминированным алгоритмам. Авторы работы предлагают математический аппарат, позволяющий переносить теоретические гарантии с ансамблей типа Gibbs на конкретные детерминированные модели, используя свойства гладкости функции потерь и класса предсказателей.

← Все материалы