Google Research анонсировала TabFM — новую foundation-модель, предназначенную для анализа табличных данных в режиме zero-shot. Архитектура модели основана на трансформерах и обучена на огромных массивах таблиц, что позволяет ей эффективно выполнять задачи классификации и регрессии без необходимости дообучения на конкретных наборах данных, превосходя традиционные методы градиентного бустинга в ряде сценариев.

Традиционно работа с таблицами требовала создания специфических моделей под каждый конкретный датасет. TabFM меняет этот подход, используя предобученное представление данных, которое учитывает структуру столбцов и взаимосвязи между признаками. Это значительно сокращает время на подготовку пайплайнов и позволяет применять ИИ к таблицам «из коробки», что критически важно для задач, где объем данных ограничен или требуется быстрая аналитика.

Модель демонстрирует высокую адаптивность к различным типам данных, включая категориальные и числовые признаки, сохраняя при этом интерпретируемость результатов. Исследователи отмечают, что TabFM способна эффективно обрабатывать пропуски и шум, что делает её универсальным инструментом для автоматизации задач машинного обучения в бизнесе и научных исследованиях.

Ключевые факты

  • TabFM использует архитектуру трансформеров для обработки табличных данных в режиме zero-shot.
  • Модель обучалась на разнообразных наборах данных, что обеспечивает её способность к обобщению без дополнительного обучения.
  • В задачах классификации и регрессии TabFM показывает результаты, сопоставимые или превосходящие классические алгоритмы градиентного бустинга.
  • Решение ориентировано на автоматизацию аналитики и снижение затрат на разработку специфических моделей для таблиц.