MarkTechPost · 01.07.2026 ·Машинное обучение

Google представила TabFM: фундаментальную модель для работы с табличными данными

Google Research анонсировала TabFM — новую фундаментальную модель, предназначенную для обработки табличных данных. Система использует механизм гибридного внимания для выполнения задач классификации и регрессии в режиме zero-shot. Модель способна делать предсказания за один проход, исключая необходимость в дообучении под конкретные наборы данных, настройке гиперпараметров или сложной подготовке признаков.

Архитектура TabFM опирается на принципы in-context learning, что позволяет модели эффективно адаптироваться к новым табличным структурам без изменения весов. Это значительно упрощает пайплайны машинного обучения, так как разработчикам больше не требуется тратить время на feature engineering для каждой новой задачи. Модель демонстрирует высокую гибкость, обрабатывая данные как последовательности, что сближает подходы к анализу таблиц с методами обработки естественного языка.

Внедрение подобных моделей может радикально сократить время вывода аналитических решений в продакшн. Вместо создания отдельных моделей для каждого датасета, специалисты могут использовать предобученное решение, способное обобщать закономерности в таблицах различной природы. Это особенно актуально для задач, где данные поступают динамически и требуют быстрой интерпретации без длительного цикла переобучения.

Ключевые факты

TabFM поддерживает задачи классификации и регрессии без предварительного обучения на конкретном наборе данных.
Модель использует архитектуру с гибридным вниманием для обработки табличных структур.
Процесс получения предсказаний реализован через один прямой проход (forward pass).
Исключена необходимость в ручном проектировании признаков (feature engineering) и подборе гиперпараметров.
Разработка представлена специалистами Google Research как универсальный инструмент для работы с таблицами.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

The latest research from Google · Машинное обучение Google представила TabFM: foundation-модель для работы с табличными данными Google Research анонсировала TabFM — новую foundation-модель, предназначенную для анализа табличных данных в режиме zero-shot. Архитектура модели основана на трансформерах и обучена на огромных массивах таблиц, что позволяет ей эффективно выполнять задачи классификации и регрессии без необходимости дообучения на конкретных наборах данных, превосходя традиционные методы градиентного бустинга в ряде сценариев. arXiv · Машинное обучение KnowsTFM: повышение точности табличных моделей через интеграцию знаний Исследователи представили метод KnowsTFM, который улучшает работу малых табличных моделей (TFM) за счет интеграции внешних реляционных знаний. В условиях нехватки данных или их высокого смещения относительно обучающей выборки, подход позволяет моделям превосходить специализированные методы, эффективно используя структурированную информацию из предметных областей для повышения качества предсказаний в сложных задачах. Hacker News · Модели и релизы Представлена MFM: новая фундаментальная модель для анализа движения Исследователи представили MFM (Motion Foundation Model) — специализированную нейросетевую архитектуру, основанную на методе PINN (Physics-Informed Neural Networks). Модель предназначена для моделирования и анализа динамических процессов, объединяя возможности глубокого обучения с физическими законами. Релиз включает веса модели и документацию, позволяя использовать её для задач прогнозирования траекторий и анализа сложных движений в различных средах. MarkTechPost · Машинное обучение Оптимизация пайплайна обработки данных Fable 5 Traces для обучения моделей Опубликовано руководство по созданию стабильного рабочего процесса для работы с датасетом Fable 5 Traces в среде Google Colab. Авторы предлагают метод ручного парсинга JSONL-файлов, который исключает использование хрупких зависимостей. Процесс включает нормализацию вызовов инструментов, аудит структуры данных, удаление конфиденциальной информации и подготовку очищенных наборов данных для обучения базовых моделей. arXiv · Машинное обучение Оценка априорных распределений данных в табличных foundation-моделях Исследователи представили методологию для оценки априорных распределений данных (data priors), которые лежат в основе обучения табличных foundation-моделей. Авторы работы анализируют, как именно выбор генеративных распределений при претрейнинге влияет на итоговую производительность моделей, предлагая стандартизированный подход для сравнения различных архитектур и стратегий обучения, что ранее оставалось «черным ящиком» в разработке табличных ИИ-систем. arXiv · Безопасность и алайнмент Уязвимости конфиденциальности в табличных foundation-моделях Исследователи выявили критические риски конфиденциальности в табличных foundation-моделях, использующих механизм внимания. Несмотря на обучение на синтетических данных, модели подвержены утечкам чувствительной информации при инференсе. В процессе in-context learning данные, передаваемые в качестве размеченных примеров, могут быть восстановлены через анализ весов внимания, что ставит под угрозу безопасность высокорисковых запросов в корпоративных системах. arXiv · Машинное обучение FedLAB: новый метод обучения мультимодальных графовых моделей в федеративном режиме Исследователи представили FedLAB — фреймворк для обучения мультимодальных графовых моделей на децентрализованных данных. Метод использует прослеживаемые семантические кодовые книги для обмена знаниями между клиентами без передачи исходных данных. Это позволяет эффективно обучать фундаментальные модели на распределенных графах, содержащих текст, изображения и топологические связи, сохраняя при этом конфиденциальность информации на стороне узлов. The latest research from Google · Машинное обучение Sequential Attention: как ускорить модели без потери точности Исследователи Google предложили новый подход к оптимизации трансформеров — Sequential Attention. Он позволяет значительно сократить вычислительные затраты на инференс, не жертвуя точностью. В основе метода лежит идея последовательного внимания: вместо параллельной обработки всех токенов модель фокусируется на одном токене за раз, используя информацию из предыдущих шагов. Это снижает сложность вычислений с O(n²) до O(n log n), что делает модели более эффективными для локального развертывания и работы в реальном времени. arXiv · Машинное обучение Adaptive Financial Transformer: новая архитектура для прогнозирования доходности акций Исследователи представили Adaptive Financial Transformer (AFT) — специализированную архитектуру для прогнозирования доходности акций в условиях нестабильных рынков. В отличие от стандартных трансформеров, модель использует механизм динамического управления вниманием, который адаптируется к текущему рыночному режиму. Это позволяет эффективнее учитывать семантические связи между финансовыми индикаторами и повышать точность предсказаний в меняющейся экономической среде. arXiv · Машинное обучение Новый подход к распознаванию таблиц в мультизадачном режиме Исследователи предложили новый метод для распознавания таблиц, который объединяет три задачи: предсказание структуры таблицы, локализацию ячеек и распознавание содержимого ячеек. В отличие от традиционных подходов, которые используют авторегрессивные декодеры, новый метод применяет порядково-независимые представления на уровне ячеек. Это позволяет избежать проблем, связанных с авторегрессивным генерацией, где порядок обработки ячеек может влиять на качество распознавания.

← Все материалы