Исследователи из MIT и Google предложили новый подход к обработке потоковых данных в системах машинного обучения, который может существенно снизить задержки и нагрузку на серверы. В статье, опубликованной на arXiv, они описывают метод, который отделяет процесс инференса от обновления состояния, используя вероятностное прореживание (probabilistic thinning).
Проблема в том, что в традиционных системах каждое входящее событие вызывает операцию чтения-модификации-записи в постоянное хранилище. Это приводит к высоким задержкам, конкуренции за ресурсы и высоким операционным затратам. Авторы предлагают решать эту проблему, обновляя состояние не при каждом событии, а с определённой вероятностью, что позволяет значительно снизить нагрузку.
Для разработчиков ИИ-агентов этот подход может быть полезен, так как многие агенты работают с потоковыми данными и требуют низкой задержки. Например, в системах, где агент должен быстро реагировать на изменения в окружении, такой метод может существенно улучшить производительность.
Исследование также показывает, что предложенный метод может снизить задержки на 30-50% при сохранении точности предсказаний. Это делает его особенно привлекательным для применения в реальных системах, где задержки критичны.