Исследователи представили новый подход к калибровке архитектур Mixture-of-Experts (MoE), направленный на повышение надежности вероятностных прогнозов моделей. Проблема калибровки заключается в том, чтобы предсказанная моделью уверенность соответствовала реальной частоте правильных ответов. В условиях, когда данные на этапе эксплуатации отличаются от обучающей выборки — так называемый сдвиг распределения — точность и доверие к выходным вероятностям нейросетей часто снижаются.
Авторы работы сосредоточились на том, как принудительная калибровка отдельных экспертов внутри системы влияет на общую производительность ансамбля. В архитектурах MoE, где за обработку разных типов входных данных отвечают специализированные подсети, такой подход позволяет не только повысить точность предсказаний, но и сделать модель более устойчивой к изменениям во входных данных. Это критически важно для систем, работающих в динамических средах, где распределение запросов может меняться со временем.
Результаты исследования показывают, что правильная настройка калибровки на уровне отдельных компонентов MoE-модели позволяет эффективнее справляться с неопределенностью. Метод помогает избежать чрезмерной самоуверенности модели в ситуациях, когда она сталкивается с малоизученными или аномальными данными. Предложенные алгоритмы позволяют лучше понимать, когда модель «сомневается» в своем ответе, что является ключевым фактором для внедрения ИИ в критически важные бизнес-процессы и системы принятия решений.