Исследователи представили метод контекстно-зависимой дистилляции (Context-Aware Distillation) для автоматического перевода естественного языка в код на предметно-ориентированных языках (DSL). В отличие от стандартных подходов, полагающихся исключительно на промпты, новая методика использует структурированный контекст, включающий грамматику Бэкуса-Наура (BNF) и спецификации API. В качестве «учителя» для обучения компактных моделей выступает DeepSeek-V4-Flash, который генерирует качественные обучающие данные, опираясь на жесткие синтаксические правила целевой среды.

Помимо дистилляции, авторы применили технику абляции для оптимизации процесса обучения, что позволило значительно повысить точность генерации кода в узкоспециализированных доменах. Использование BNF-грамматики в качестве направляющего контекста минимизирует количество синтаксических ошибок, которые часто возникают при использовании LLM общего назначения для написания специфического программного кода. Такой подход позволяет создавать более надежные и предсказуемые инструменты автоматизации, работающие в рамках строгих ограничений конкретных программных интерфейсов.

Результаты исследования показывают, что интеграция формальных спецификаций в процесс обучения моделей значительно эффективнее, чем простое увеличение объема обучающей выборки. Метод демонстрирует потенциал для внедрения в системы автоматической генерации кода для внутренних корпоративных систем, где требуется высокая точность и строгое соблюдение синтаксиса API. Это решение упрощает разработку специализированных инструментов, снижая зависимость от ручного написания кода при работе с закрытыми или сложными программными экосистемами.