arXiv · 22.06.2026 ·Машинное обучение

Полиномиальные KAN упрощают обучение нейросетей сложным динамическим системам

Исследователи представили новый подход к архитектуре нейронных сетей, основанный на использовании полиномиальных сетей Колмогорова-Арнольда (KAN). В работе анализируется проблема обучения нейросетей динамике «Игры жизни» Конвея — классического клеточного автомата, где стандартные архитектуры часто сталкиваются с трудностями при поиске оптимальных параметров. Авторы показывают, что выбор функции активации является критическим фактором, определяющим способность модели эффективно аппроксимировать правила системы.

Традиционные нейронные сети требуют значительного увеличения масштаба, чтобы случайно найти подсети с «удачной» инициализацией, способные воспроизвести правила автомата. Использование полиномиальных KAN позволяет существенно сократить этот разрыв. Благодаря замене фиксированных функций активации на обучаемые полиномиальные компоненты, модель получает возможность более гибко настраивать внутренние представления, что делает процесс обучения динамическим системам более стабильным и менее зависимым от случайных факторов при инициализации весов.

Данное исследование вносит вклад в понимание того, как архитектурные изменения влияют на обучаемость нейросетей в задачах с жесткими правилами и сложной пространственно-временной динамикой. Результаты показывают, что переход от стандартных MLP к архитектурам на базе KAN может стать эффективным инструментом для решения задач, где требуется точное моделирование алгоритмических процессов, а не просто статистическое приближение данных.

Источник: arXiv

Похожие материалы

Hacker News · Машинное обучение Нейронные клеточные автоматы и рекуррентные архитектуры Исследователи представили детальный разбор применения нейронных клеточных автоматов (NCA) в контексте современных рекуррентных архитектур. В отличие от классических моделей, где состояние системы обновляется глобально, NCA используют локальные правила взаимодействия, позволяя модели обучаться сложным паттернам поведения на основе простых локальных операций. Это открывает новые возможности для моделирования динамических систем, где пространственная структура данных имеет решающее значение. arXiv · Машинное обучение Новая библиотека KANLib для обучения нейросетей на основе KAN Исследователи представили KANLib — модульную и масштабируемую библиотеку для работы с Kolmogorov-Arnold Networks (KAN). Эти сети используют обучаемые унивариантные функции вместо линейных весов, что делает их более интерпретируемыми и выразительными по сравнению с традиционными multilayer perceptrons (MLP). arXiv · Машинное обучение Новый подход к моделированию динамических систем через явные структуры Исследователи представили альтернативный подход к обучению динамических систем, который отходит от использования универсальных нелинейных аппроксиматоров. Вместо наращивания сложности нейронных сетей для захвата сложных паттернов, авторы предлагают архитектуру, где моделирующая способность системы определяется её внутренней структурой. Такой метод позволяет эффективнее описывать поведение динамических процессов, опираясь на математически обоснованные взаимодействия, а не на избыточную нелинейность. arXiv · Исследования и наука Нейронные сети через призму классической линейной регрессии Исследователи опубликовали работу, предлагающую новый взгляд на архитектуру нейронных сетей для специалистов, привыкших к методам классической статистики. Авторы доказывают, что базовые принципы работы нейросетей можно интерпретировать как расширенную форму линейной регрессии. Такой подход помогает преодолеть высокий порог входа в область глубокого обучения для статистиков, работающих в рамках частотной парадигмы. arXiv · Машинное обучение Оптимизация гиперпараметров в физически информированных нейросетях Исследователи представили новый подход к обучению физически информированных нейронных сетей (PINNs), предназначенных для решения дифференциальных уравнений в частных производных. Основная сложность таких моделей заключается в нестабильной сходимости и высокой чувствительности к выбору гиперпараметров, что вызвано невыпуклой структурой функции потерь, включающей множество физических ограничений. arXiv · Машинное обучение Исследование монотонных нейросетей на основе теоремы Колмогорова-Арнольда Учёные представили исследование монотонных нейросетей, основанных на теореме Колмогорова-Арнольда. Монотонность — это свойство, при котором выходные данные модели изменяются в одном направлении при изменении входных данных. Это важно в задачах, где такие зависимости известны заранее, например, в экономике или науке. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. Hacker News · Машинное обучение Автоматизация проектирования нейросетей для граничных вычислений Разработчики представили подход к автоматизированному поиску архитектур нейронных сетей (NAS), оптимизированный для работы на устройствах с ограниченными вычислительными ресурсами. Технология позволяет автоматически подбирать структуру модели так, чтобы она сохраняла высокую точность при минимальных требованиях к оперативной памяти и энергопотреблению. Это решает проблему переноса тяжелых моделей на оборудование уровня Edge AI, где использование стандартных архитектур часто невозможно из-за жестких ограничений по железу. arXiv · Машинное обучение Физический подход к пониманию обучения и обобщения нейросетей Исследователи представили работу, анализирующую принципы работы глубокого обучения через призму статистической физики. Авторы отмечают, что современные нейронные сети часто демонстрируют поведение, противоречащее классическим статистическим моделям, что требует пересмотра фундаментальных представлений о процессе обучения и способности моделей к обобщению на новых данных. arXiv · Машинное обучение Новый метод обучения нейросетей без жесткого копирования знаний Исследователи предложили альтернативу традиционному дистилляции знаний (knowledge distillation), где маленькие модели пытаются копировать логиты больших. Проблема в том, что это делает их слишком узкоспециализированными, ухудшая обобщающую способность.

← Все материалы