Исследователи представили InvestPhilBench — специализированный бенчмарк для оценки способности больших языковых моделей применять экспертные инвестиционные стратегии. В отличие от стандартных тестов, система проверяет не просто знание фактов, а глубину процедурного мышления, охватывая восемь когнитивных уровней: от идентификации базовых принципов до экстраполяции сложных инвестиционных фреймворков в новых рыночных условиях.
Использование ИИ в качестве аналитического ассистента требует высокой точности в логических выводах, соответствующих методологиям профессиональных инвесторов. InvestPhilBench позволяет оценить, насколько модель способна имитировать логику принятия решений, характерную для экспертов, и избегать поверхностных ответов. Это критически важно для автоматизации финансового анализа и разработки специализированных агентных систем в сфере финтеха.
Бенчмарк построен как динамическая многоуровневая структура. Он тестирует способность модели не только интерпретировать исторические данные, но и адаптировать инвестиционную философию к меняющимся рыночным сценариям. Такой подход помогает выявить пробелы в рассуждениях моделей, которые могут привести к ошибкам при формировании инвестиционных рекомендаций или управлении портфелем.
Ключевые факты
- Бенчмарк охватывает 8 когнитивных уровней процедурного мышления (от L1 до L8).
- Основная цель — проверка способности моделей реконструировать и применять экспертные инвестиционные фреймворки.
- Тестирование включает этапы от идентификации принципов до экстраполяции стратегий в новых условиях.
- Инструмент предназначен для оценки LLM, используемых в качестве ассистентов в инвестиционных исследованиях.