Исследователи провели сравнительный анализ двух актуальных языковых моделей, MiniMax M3 и GLM 5.2, сфокусировавшись на их способности к автономной генерации программного кода. В ходе тестирования использовались специализированные наборы задач, имитирующие реальные сценарии разработки, где ИИ должен не просто дополнять фрагменты кода, но и самостоятельно проектировать архитектуру решений, исправлять ошибки и реализовывать функциональность с нуля.
Результаты бенчмарка показывают различия в подходах моделей к решению сложных алгоритмических задач. MiniMax M3 демонстрирует высокую эффективность в написании лаконичного кода и следовании заданным спецификациям, в то время как GLM 5.2 показывает преимущество в понимании контекста крупных кодовых баз и способности к логической декомпозиции комплексных систем. Анализ также затронул вопросы устойчивости моделей к галлюцинациям при работе с редкими библиотеками и фреймворками.
Данное исследование подчеркивает текущий прогресс в области специализированных моделей для разработки ПО. Сравнение позволяет оценить, насколько современные архитектуры готовы к интеграции в автономные агентные системы, способные выполнять полный цикл написания и тестирования кода без участия человека. Полученные данные помогают разработчикам и компаниям выбирать оптимальные инструменты для автоматизации процессов программирования в зависимости от специфики задач.