Исследователи из Allen Institute for AI представили DiScoFormer — архитектуру трансформера, способную одновременно моделировать плотность распределения данных и выполнять скоринг. В отличие от традиционных подходов, требующих раздельных моделей для генерации и оценки, этот метод позволяет эффективно работать с различными распределениями, объединяя задачи обучения плотности и оценки вероятностей в едином вычислительном процессе.

Разработка решает проблему вычислительной избыточности, характерную для современных генеративных моделей. Обычно для оценки качества или плотности данных используются отдельные дискриминаторы или специализированные статистические методы. DiScoFormer использует унифицированный подход, который позволяет модели лучше адаптироваться к сложным структурам данных, сохраняя при этом высокую точность при выполнении обеих задач.

Архитектура опирается на принципы диффузионных моделей и энергетических функций, что делает её применимой для широкого спектра задач машинного обучения, включая генерацию контента и анализ аномалий. Использование единого трансформера упрощает пайплайны обучения и снижает требования к ресурсам при развертывании систем, требующих постоянного мониторинга вероятностных характеристик входных данных.

Ключевые факты

  • Разработчик: Allen Institute for AI (AI2).
  • Основная инновация: объединение моделирования плотности и скоринга в рамках одного трансформера.
  • Принцип работы: использование единой архитектуры для работы с различными распределениями данных без необходимости переобучения под конкретные задачи.
  • Область применения: генеративное моделирование, оценка качества данных и детектирование аномалий.