Исследование Института безопасности ИИ Великобритании показало, что стандартные методы оценки моделей существенно недооценивают способности ИИ-агентов. Ограничения по вычислительным ресурсам и количеству токенов в тестах не позволяют моделям раскрыть потенциал при решении сложных задач. Увеличение лимитов приводит к резкому росту эффективности, особенно у современных моделей, что требует пересмотра подходов к тестированию систем на границе возможностей.

Анализ охватил семь популярных бенчмарков, сфокусированных на задачах разработки программного обеспечения. Выяснилось, что текущие протоколы тестирования искусственно ограничивают «время на размышление» и количество попыток, которые агент может предпринять для достижения цели. В результате показатели успешности в стандартных условиях оказываются значительно ниже тех, которые модель демонстрирует при расширенном бюджете токенов.

Особенно заметен этот разрыв у передовых моделей последнего поколения. При десятикратном увеличении лимита токенов показатель успешности выполнения инженерных задач возрастает в среднем на 25%. Это означает, что текущие метрики фиксируют не столько предел возможностей ИИ, сколько жесткость рамок, установленных разработчиками тестов. Подобная недооценка создает ложное представление о темпах прогресса в области автономных агентных систем.

Ключевые факты

  • Исследование проведено Институтом безопасности ИИ Великобритании (UK AISI).
  • Анализ охватил семь различных бенчмарков для оценки производительности ИИ.
  • Увеличение бюджета токенов в 10 раз повышает успешность выполнения задач на 25%.
  • Стандартные ограничения по вычислительным ресурсам систематически искажают результаты тестирования.
  • Современные модели демонстрируют наибольший прирост производительности при снятии искусственных лимитов.