Google Research анонсировала TabFM — новую foundation-модель, предназначенную для анализа табличных данных в режиме zero-shot. Архитектура модели основана на трансформерах и обучена на огромных массивах таблиц, что позволяет ей эффективно выполнять задачи классификации и регрессии без необходимости дообучения на конкретных наборах данных, превосходя традиционные методы градиентного бустинга в ряде сценариев.
Традиционно работа с таблицами требовала создания специфических моделей под каждый конкретный датасет. TabFM меняет этот подход, используя предобученное представление данных, которое учитывает структуру столбцов и взаимосвязи между признаками. Это значительно сокращает время на подготовку пайплайнов и позволяет применять ИИ к таблицам «из коробки», что критически важно для задач, где объем данных ограничен или требуется быстрая аналитика.
Модель демонстрирует высокую адаптивность к различным типам данных, включая категориальные и числовые признаки, сохраняя при этом интерпретируемость результатов. Исследователи отмечают, что TabFM способна эффективно обрабатывать пропуски и шум, что делает её универсальным инструментом для автоматизации задач машинного обучения в бизнесе и научных исследованиях.
Ключевые факты
- TabFM использует архитектуру трансформеров для обработки табличных данных в режиме zero-shot.
- Модель обучалась на разнообразных наборах данных, что обеспечивает её способность к обобщению без дополнительного обучения.
- В задачах классификации и регрессии TabFM показывает результаты, сопоставимые или превосходящие классические алгоритмы градиентного бустинга.
- Решение ориентировано на автоматизацию аналитики и снижение затрат на разработку специфических моделей для таблиц.
