Исследование Института безопасности ИИ Великобритании показало, что стандартные методы оценки моделей существенно недооценивают способности ИИ-агентов. Ограничения по вычислительным ресурсам и количеству токенов в тестах не позволяют моделям раскрыть потенциал при решении сложных задач. Увеличение лимитов приводит к резкому росту эффективности, особенно у современных моделей, что требует пересмотра подходов к тестированию систем на границе возможностей.
Анализ охватил семь популярных бенчмарков, сфокусированных на задачах разработки программного обеспечения. Выяснилось, что текущие протоколы тестирования искусственно ограничивают «время на размышление» и количество попыток, которые агент может предпринять для достижения цели. В результате показатели успешности в стандартных условиях оказываются значительно ниже тех, которые модель демонстрирует при расширенном бюджете токенов.
Особенно заметен этот разрыв у передовых моделей последнего поколения. При десятикратном увеличении лимита токенов показатель успешности выполнения инженерных задач возрастает в среднем на 25%. Это означает, что текущие метрики фиксируют не столько предел возможностей ИИ, сколько жесткость рамок, установленных разработчиками тестов. Подобная недооценка создает ложное представление о темпах прогресса в области автономных агентных систем.
Ключевые факты
- Исследование проведено Институтом безопасности ИИ Великобритании (UK AISI).
- Анализ охватил семь различных бенчмарков для оценки производительности ИИ.
- Увеличение бюджета токенов в 10 раз повышает успешность выполнения задач на 25%.
- Стандартные ограничения по вычислительным ресурсам систематически искажают результаты тестирования.
- Современные модели демонстрируют наибольший прирост производительности при снятии искусственных лимитов.
