Максим Лабонн из Liquid AI представил подробный разбор процесса создания «малых» моделей (Small Language Models), которые по своим характеристикам приближаются к крупным языковым системам. В основе подхода лежит оптимизация архитектуры и качества данных, позволяющая достичь высокой эффективности при ограниченных вычислительных ресурсах. Основное внимание уделяется этапам подготовки датасетов, выбору стратегий токенизации и настройке гиперпараметров, которые критически влияют на итоговую производительность модели.
В докладе рассматриваются методы фильтрации данных, позволяющие исключить «шум» и повысить плотность полезной информации для обучения. Автор подчеркивает важность использования синтетических данных и специализированных методов дообучения, таких как SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization), для достижения стабильных результатов. Особый акцент сделан на том, как правильный подбор архитектурных решений позволяет компактным моделям эффективно справляться с задачами рассуждения и логики, которые ранее считались прерогативой гигантских нейросетей.
Практический опыт Liquid AI демонстрирует, что развитие ИИ смещается в сторону повышения эффективности инференса и снижения затрат на обучение. Использование компактных моделей открывает новые возможности для локального запуска сложных систем без необходимости обращения к облачным мощностям. Представленные подходы позволяют разработчикам создавать специализированные решения, которые сохраняют высокую точность при значительно меньшем потреблении памяти и энергии.