Исследователи NVIDIA представили SpatialClaw — агентную архитектуру, предназначенную для решения задач пространственного мышления в 3D-средах. Ключевая особенность системы заключается в отказе от дополнительного обучения моделей под конкретные задачи. Вместо этого агент использует написание кода на языке Python в качестве основного интерфейса взаимодействия с окружением.
В процессе работы SpatialClaw динамически генерирует и исполняет программный код в постоянном ядре (persistent kernel). Это позволяет агенту самостоятельно вызывать специализированные инструменты восприятия и манипулировать ими для анализа пространственных данных. Такой подход превращает написание кода в универсальный механизм планирования действий, что значительно повышает гибкость системы при работе с геометрическими объектами и сложными сценами.
Использование кода как среды исполнения позволяет SpatialClaw эффективно комбинировать различные визуальные и аналитические модули без необходимости переобучения весов нейросети. Система демонстрирует высокую точность в задачах, требующих понимания глубины, расположения объектов и их взаимного влияния в трехмерном пространстве, опираясь на логические конструкции языка программирования для обработки визуальной информации.
