Аналитики указывают на фундаментальный барьер в развитии современных языковых моделей: нехватку качественных данных для обучения. Попытки компаний, включая Meta (признана экстремистской организацией, деятельность запрещена в РФ), привлекать штатных инженеров для ручной разметки и создания синтетических датасетов не решают проблему масштабируемости. Человеческий труд в этом процессе становится «узким горлышком», которое ограничивает скорость прогресса и делает разработку новых поколений моделей неоправданно дорогой.
Основная сложность заключается в том, что для обучения моделей следующего уровня требуются не просто массивы текста, а высококачественные, логически выверенные данные, которые сложно генерировать в промышленных масштабах. Использование инженеров для написания кода или ответов на вопросы в качестве обучающих примеров не позволяет достичь необходимого объема данных для качественного скачка в способностях ИИ. Это создает ситуацию, когда инвестиции в вычислительные мощности растут быстрее, чем доступность данных, пригодных для эффективного обучения.
Текущая стратегия индустрии смещается в сторону поиска новых методов синтеза данных и автоматизации их фильтрации. Без прорыва в способах получения качественной обучающей информации, основанных на алгоритмических подходах, а не на ручном труде, темпы совершенствования моделей могут замедлиться. Эксперты подчеркивают, что зависимость от человеческого участия в подготовке датасетов остается главным сдерживающим фактором для достижения уровня автономности, к которому стремятся разработчики передовых систем.