Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа.

Результаты показывают, что LLM демонстрируют высокую эффективность в автоматизации рутинных задач, таких как написание скриптов на Python для обработки данных. Однако при интерпретации сложных статистических зависимостей и выявлении аномалий модели все еще склонны к ошибкам, требующим участия человека-аналитика. В работе представлены метрики точности выполнения запросов и предложены методы верификации выводов, которые делает модель на основе предоставленных данных.

Данное исследование подчеркивает текущие ограничения ИИ в задачах, требующих глубокого понимания контекста предметной области. Авторы приходят к выводу, что использование моделей в качестве полноценной замены аналитикам пока преждевременно, однако они могут выступать в роли эффективных ассистентов для ускорения подготовки отчетов и первичной обработки информации. Работа содержит подробные бенчмарки, которые помогают оценить пригодность различных архитектур моделей для задач Data Science.