arXiv · 24.06.2026 ·Оценка и бенчмарки

InvestPhilBench: новый бенчмарк для оценки инвестиционного мышления LLM

Исследователи представили InvestPhilBench — специализированный бенчмарк для оценки способности больших языковых моделей применять экспертные инвестиционные стратегии. В отличие от стандартных тестов, система проверяет не просто знание фактов, а глубину процедурного мышления, охватывая восемь когнитивных уровней: от идентификации базовых принципов до экстраполяции сложных инвестиционных фреймворков в новых рыночных условиях.

Использование ИИ в качестве аналитического ассистента требует высокой точности в логических выводах, соответствующих методологиям профессиональных инвесторов. InvestPhilBench позволяет оценить, насколько модель способна имитировать логику принятия решений, характерную для экспертов, и избегать поверхностных ответов. Это критически важно для автоматизации финансового анализа и разработки специализированных агентных систем в сфере финтеха.

Бенчмарк построен как динамическая многоуровневая структура. Он тестирует способность модели не только интерпретировать исторические данные, но и адаптировать инвестиционную философию к меняющимся рыночным сценариям. Такой подход помогает выявить пробелы в рассуждениях моделей, которые могут привести к ошибкам при формировании инвестиционных рекомендаций или управлении портфелем.

Ключевые факты

Бенчмарк охватывает 8 когнитивных уровней процедурного мышления (от L1 до L8).
Основная цель — проверка способности моделей реконструировать и применять экспертные инвестиционные фреймворки.
Тестирование включает этапы от идентификации принципов до экстраполяции стратегий в новых условиях.
Инструмент предназначен для оценки LLM, используемых в качестве ассистентов в инвестиционных исследованиях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы