Исследователи представили метод TACO (Tool-Augmented Credit Optimization), решающий проблему неэффективного использования инструментов мультимодальными агентами. Алгоритм позволяет точнее оценивать вклад каждого вызова кода в итоговый результат, отсеивая избыточные или вводящие в заблуждение операции. Это повышает точность ответов агентов при выполнении сложных визуальных задач, требующих многошагового анализа и программной обработки данных.

Традиционные подходы к обучению агентов часто опираются на оценку только финального результата, что не позволяет системе понять, какие именно действия привели к успеху, а какие были лишними. TACO вводит механизм пошагового распределения «кредита» (награды) за каждое действие, что помогает модели обучаться более логичному и экономному использованию инструментов. Это особенно критично для задач, где агент должен самостоятельно писать и исполнять код для анализа изображений.

Метод демонстрирует значительное улучшение в задачах визуального вопросно-ответного анализа (VQA), где требуется высокая точность интерпретации графических данных. Благодаря более качественной атрибуции действий, агенты реже совершают ошибки, связанные с избыточным использованием вычислительных ресурсов или неверной интерпретацией промежуточных результатов выполнения кода.

Ключевые факты

  • TACO (Tool-Augmented Credit Optimization) оптимизирует процесс обучения агентов через точное распределение наград за использование инструментов.
  • Метод решает проблему «шумных» или избыточных вызовов кода, которые снижают качество ответов мультимодальных моделей.
  • Алгоритм лучше справляется с атрибуцией итоговой корректности ответа к конкретным промежуточным действиям агента.
  • Подход ориентирован на повышение эффективности агентов в задачах fine-grained visual question answering (детализированный визуальный анализ).