Исследователи предложили новую архитектуру трансформеров, основанную на гипотезе разделения состояния и предсказания. В стандартных моделях один поток вычислений одновременно отвечает за генерацию следующего токена и хранение контекста. Авторы доказали, что разграничение этих функций позволяет существенно повысить эффективность языкового моделирования и качество предсказаний в долгосрочной перспективе.
Суть подхода заключается в создании двух параллельных вычислительных потоков внутри модели. Первый поток фокусируется исключительно на формировании внутреннего представления данных, сохраняя «состояние» системы, в то время как второй поток использует эти данные для точного прогнозирования следующего токена. Такой подход устраняет конфликт интересов, когда модель вынуждена жертвовать глубиной понимания контекста ради сиюминутной точности предсказания.
Экспериментальное обучение предложенного варианта трансформера показало, что архитектурная специализация вычислительных путей позволяет модели лучше справляться с задачами, требующими удержания длинных зависимостей. Это открывает путь к созданию более эффективных LLM, которые требуют меньше вычислительных ресурсов для достижения аналогичных показателей перплексии по сравнению с классическими архитектурами.
Ключевые факты
- Гипотеза разделения состояния и предсказания (State-Prediction Separation Hypothesis) постулирует, что разделение функций хранения контекста и генерации токенов улучшает производительность.
- Разработанный вариант трансформера использует два независимых вычислительных потока вместо одного общего.
- Разделение потоков позволяет модели более эффективно распределять внутренние ресурсы для обработки долгосрочных зависимостей в тексте.
- Метод направлен на оптимизацию обучения моделей, снижая избыточность вычислений при сохранении высокого качества генерации.