Исследователи представили архитектуру Tree Transformers, которая меняет способ обработки иерархических данных в нейронных сетях. В отличие от стандартных трансформеров, работающих с линейными последовательностями токенов через механизмы внимания, новая модель опирается на древовидную структуру данных. Это позволяет эффективнее моделировать зависимости в задачах, где важна вложенность и иерархия, например, при анализе синтаксиса языков программирования или сложных математических выражений.
Основное преимущество подхода заключается в оптимизации вычислительных затрат при работе с длинными контекстами, имеющими естественную структуру дерева. Традиционные модели часто сталкиваются с квадратичным ростом сложности при увеличении длины последовательности, тогда как Tree Transformers используют рекурсивные механизмы для обработки узлов. Это снижает избыточность вычислений, так как внимание фокусируется не на всех элементах сразу, а на связях внутри иерархии.
Разработка открывает новые возможности для задач, требующих высокой точности в интерпретации логических структур. Метод может быть применен в автоматизации написания кода, формальной верификации программного обеспечения и анализе сложных документов, где линейное представление текста теряет значимые смысловые связи. Исследование демонстрирует, что отказ от жесткой линейности в пользу древовидных графов позволяет достичь более глубокого понимания контекста при меньшем количестве параметров.