Разработчики столкнулись с деградацией навыков Tool Calling в последних моделях Anthropic. Исследование показало, что модели стали хуже работать с кастомными инструментами, если их описания отклоняются от паттернов, заложенных в закрытом инструменте Claude Code. Это создает серьезные риски для стабильности агентных систем, полагающихся на предсказуемое поведение LLM при вызове внешних API.
Основная проблема заключается в агрессивном обучении с подкреплением (RL), которое, по всей видимости, оптимизирует модели под специфические сценарии использования внутри экосистемы Anthropic. В результате, когда структура декларации инструментов или логика запросов пользователя незначительно отличаются от «эталонных» примеров, модель начинает демонстрировать непредсказуемое поведение или игнорировать заданные параметры.
Такая специализация моделей под конкретные инструменты ограничивает гибкость разработчиков, создающих агентные архитектуры. Вместо универсального следования инструкциям, модели проявляют склонность к «заученным» паттернам, что затрудняет интеграцию с существующими корпоративными системами и требует пересмотра подходов к проектированию промптов и описанию функций для агентов.
Ключевые факты
- Модели Anthropic демонстрируют регрессию в точности вызова инструментов при отклонении от стандартов Claude Code.
- Закрытый характер инструментария Claude Code препятствует адаптации разработчиков под новые требования моделей.
- Агрессивное RL-обучение приводит к тому, что модели хуже справляются с нетипичными или сложными декларациями функций.
- Проблема проявляется в виде ошибок при интерпретации аргументов и отказов от использования инструментов в пограничных случаях.