Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности.

В исследовании, опубликованном на arXiv, авторы протестировали метод на 76 опубликованных работах. Они показали, что LLM могут не только автоматически выявлять ошибки в данных, но и предлагать альтернативные интерпретации результатов. Это может существенно изменить подход к проверке научных публикаций, сделав его более быстрым и доступным.

Автоматизация проверки воспроизводимости имеет важные последствия для научного сообщества. Во-первых, это может снизить нагрузку на исследователей, освободив их время для более сложных задач. Во-вторых, это может повысить доверие к научным публикациям, так как автоматизированные системы менее подвержены субъективности. В будущем подобные технологии могут быть применены и в других областях науки, включая медицину и инженерию.

Для разработчиков ИИ-агентов этот подход демонстрирует потенциал LLM в автоматизации сложных аналитических задач. Это может быть полезно, например, при создании агентов для анализа данных или проверки качества информации. Кроме того, метод может быть адаптирован для использования в системах, которые помогают исследователям в их работе, делая научный процесс более эффективным и прозрачным.