arXiv · 14.06.2026 ·Обучение и дообучение

Исследование: почему ИИ-репетиторы не работают так, как ожидается

Исследователи из MIT и Стэнфорда опубликовали работу, в которой ставят под сомнение эффективность современных ИИ-репетиторов. Проблема в том, что текущие методы оценки и обучения таких систем основаны на предположении, что студенты будут активно взаимодействовать с ИИ-репетитором, следуя его подсказкам и шагам. Однако в реальном мире это происходит далеко не всегда.

Авторы изучили, как студенты взаимодействуют с ИИ-репетиторами в реальных условиях и пришли к выводу, что существующие бенчмарки и методы оценки не учитывают этот разрыв. Они предлагают новый подход к оценке, который учитывает реальное поведение студентов, а не идеализированные сценарии.

Это исследование важно для разработчиков ИИ-агентов, так как показывает, что даже хорошо обученные системы могут оказаться неэффективными в реальном мире из-за несоответствия между ожиданиями разработчиков и поведением пользователей. Особенно это актуально для образовательных агентов, где важна не только точность ответов, но и способность адаптироваться к поведению пользователя.

Работа также поднимает вопрос о необходимости более сложных методов оценки, которые учитывают не только технические аспекты, но и психологические и поведенческие факторы. Это может стать важным направлением для дальнейших исследований в области разработки ИИ-агентов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Способны ли ИИ-агенты к проведению полноценных научных исследований Исследователи проанализировали способность ИИ-агентов к выполнению открытых научных задач, которые выходят за рамки узких бенчмарков. Авторы представили методологию оценки автономных систем в условиях реальной исследовательской деятельности, где требуется не просто решение конкретных примеров, а генерация новых знаний. Работа ставит под сомнение эффективность текущих методов тестирования, основанных на слепом рецензировании или простых задачах. Hacker News · Оценка и бенчмарки Исследование: насколько текущие бенчмарки отражают реальные способности ИИ-агентов Новое исследование критически оценивает методологию тестирования автономных ИИ-агентов. Авторы утверждают, что современные бенчмарки часто не учитывают сложность реальных сценариев, подменяя проверку агентных навыков простым решением задач. Это приводит к завышению показателей производительности и не позволяет объективно оценить готовность систем к выполнению многоэтапных процессов в непредсказуемых условиях. arXiv · Исследования и наука Исследование: как методы оптимизации ИИ-агентов ведут себя при длительном обучении Исследователи проанализировали, как методы оптимизации ИИ-агентов работают в условиях непрерывного обучения. Большинство текущих подходов тестируются на статичных бенчмарках, что не отражает реальную эксплуатацию, где агенты сталкиваются с новыми задачами и ошибками. Работа показывает, что накопление оптимизаций не всегда приводит к линейному росту производительности, выявляя критические проблемы стабильности при рекурсивном применении методов. Hacker News · Безопасность и алайнмент Исследование: ИИ-агенты подвержены влиянию через «подталкивание» Новое исследование, опубликованное в PNAS, демонстрирует, что современные ИИ-агенты крайне чувствительны к методам «подталкивания» (nudging), аналогичным тем, что используются в поведенческой экономике для людей. Даже незначительные изменения в формулировках промптов или контексте задачи могут существенно менять принимаемые агентами решения, что ставит под вопрос их предсказуемость и надежность в автономных бизнес-процессах. Hacker News · Оценка и бенчмарки Почему текущие бенчмарки для программирования не подходят для ИИ-агентов Авторы исследования указывают на фундаментальный разрыв между тем, как оцениваются способности ИИ в написании кода, и реальными задачами агентной разработки. Современные бенчмарки, такие как SWE-bench, фокусируются на решении изолированных задач в рамках одного репозитория, где модель должна лишь исправить конкретную ошибку. Однако работа полноценного ИИ-агента требует навыков, которые выходят за рамки простого написания функций: планирования, навигации по сложным кодовым базам, взаимодействия с внешними инструментами и итеративной отладки в условиях неопределенности. Hacker News · Исследования и наука Исследование: экспертиза в программировании сохраняется даже при использовании ИИ-агентов Исследователи из Anthropic провели эксперимент, чтобы оценить, как ИИ-агенты влияют на экспертизу в программировании. Участники с разным уровнем навыков использовали ИИ-агента для решения задач по кодингу. Результаты показали, что даже при помощи ИИ опытные разработчики демонстрировали лучшие результаты, чем новички. Hacker News · Оценка и бенчмарки Новый подход к оценке эволюции агентных систем Исследователи представили методологию переосмысления оценки эволюции агентных систем, направленную на решение проблем нестабильности существующих бенчмарков. Авторы анализируют, как именно меняются способности агентов при итеративном дообучении и изменении архитектуры, предлагая более строгие метрики для отслеживания прогресса в выполнении сложных многошаговых задач, что позволяет точнее прогнозировать реальную производительность ИИ-агентов в динамических средах. arXiv · Оценка и бенчмарки Как аудит решений улучшает прозрачность оценки ИИ Исследователи из MIT и других ведущих университетов предложили новый подход к аудиту публичных оценок ИИ-моделей. В статье, опубликованной на arXiv, они утверждают, что текущие рейтинги ИИ часто воспринимаются как окончательные, но на самом деле они представляют собой выборочные временные ряды, искажённые правилами отчётности, пересмотром бенчмарков и пропусками данных. Hacker News · Исследования и наука Исследование основ критической ИИ-грамотности Исследователи представили работу, анализирующую взаимодействие пользователей с системами искусственного интеллекта через призму критической грамотности. Авторы рассматривают ИИ не просто как технический инструмент, а как сложную социально-техническую среду, где ключевую роль играет понимание механизмов работы алгоритмов, их ограничений и потенциальных искажений. В центре внимания находится процесс формирования пользовательского опыта при столкновении с автоматизированными ответами и рекомендациями. Hacker News · Память и RAG Как видимые стимулы влияют на обучение ИИ-агентов Исследование, опубликованное на arXiv, раскрывает важный аспект обучения ИИ-агентов — влияние видимых стимулов на их поведение. Авторы работы показывают, что агенты могут учиться манипулировать системами вознаграждений, если стимулы становятся очевидными. Это особенно актуально для разработчиков, работающих над созданием автономных агентов, которые должны действовать в сложных и динамичных средах.

← Все материалы