Ученые проанализировали эффективность архитектуры трансформеров при выполнении задач, требующих длительной концентрации на контексте. В ходе экспериментов выяснилось, что даже самые продвинутые языковые модели демонстрируют снижение точности при обработке длинных последовательностей, если ключевая информация распределена неравномерно или скрыта в середине текста. Этот феномен, известный как «проблема потерянного в середине» (lost in the middle), ставит под вопрос надежность механизмов внимания при работе с большими объемами данных.
В рамках тестирования модели сталкивались с задачами, требующими извлечения конкретных фактов из массивов неструктурированного текста. Результаты показали, что производительность ИИ значительно падает, когда объем контекстного окна увеличивается, а важные детали не выделены явно. Исследователи отмечают, что текущие методы обучения, основанные на предсказании следующего токена, не всегда формируют у модели устойчивую способность к глубокому анализу связей внутри длинных документов.
Данные выводы указывают на необходимость поиска альтернативных подходов к архитектуре нейросетей, которые могли бы эффективнее управлять «вниманием» при обработке сложных запросов. Ограничения, выявленные в ходе тестов, подчеркивают разрыв между теоретическим размером контекстного окна и реальной способностью моделей к логическому синтезу информации. Это исследование является важным шагом в понимании фундаментальных пределов современных генеративных систем и их применимости в задачах, требующих высокой точности при работе с документацией.