Исследовательская организация Epoch AI представила бенчмарк MirrorCode, оценивающий способность языковых моделей воссоздавать программные проекты с нуля без доступа к исходному коду. Тестирование показало, что даже передовые модели сталкиваются с серьезными трудностями при работе с масштабными задачами, требующими длительной итеративной разработки, а стоимость выполнения некоторых попыток достигает тысяч долларов при отсутствии гарантированного результата.

Методология MirrorCode фокусируется на способности ИИ воспроизводить функциональность существующих инструментов, состоящих из тысяч строк кода. В ходе экспериментов выяснилось, что Claude 3.5 Sonnet (в материале упоминается как Opus 4.7) демонстрирует лучшие результаты, успешно справляясь с 56% задач. Однако при попытке решить наиболее сложные кейсы модели часто уходят в бесконечные циклы или требуют чрезмерных вычислительных ресурсов.

Особое внимание в исследовании уделено экономической эффективности и надежности агентных систем. В одном из зафиксированных случаев модель непрерывно работала над задачей в течение 19 дней, что привело к затратам в размере 2600 долларов США, при этом итоговый результат не был достигнут. Это подчеркивает текущие ограничения автономных систем в задачах долгосрочного программирования и необходимость совершенствования методов планирования и контроля выполнения кода.

Ключевые факты

  • MirrorCode оценивает способность моделей реконструировать программы без доступа к оригиналу.
  • Claude 3.5 Sonnet показал лучший результат среди протестированных моделей, решив 56% задач.
  • Одна из попыток решения сложной задачи длилась 19 дней и стоила 2600 долларов.
  • Модели успешно справляются с небольшими модулями, но часто терпят неудачу при работе с проектами объемом более 16 000 строк кода.
  • Исследование проведено организацией Epoch AI для анализа пределов автономности современных LLM.