arXiv · 21.06.2026 ·Машинное обучение

Автоматизация генерации кода для предметно-ориентированных языков

Исследователи формализовали задачу Text2DSL, направленную на автоматическое создание кода для предметно-ориентированных языков (DSL) на основе естественного языка. В отличие от генерации SQL-запросов или кода общего назначения, работа с DSL требует учета специфических синтаксических правил и ограничений безопасности, что делает задачу более сложной и узкоспециализированной. Авторы подчеркивают, что ручное написание правил для управления политиками безопасности операционных систем часто приводит к ошибкам из-за высокого порога входа.

В рамках работы предложен подход, позволяющий LLM эффективно транслировать пользовательские описания в корректные DSL-инструкции. Это решение снижает зависимость от глубокой экспертизы разработчиков при настройке систем защиты. Метод опирается на специфические паттерны проектирования, которые помогают моделям лучше справляться с жесткими требованиями к синтаксису, характерными для языков управления доступом и конфигурациями безопасности.

Результаты исследования показывают, что специализированные методы генерации кода для DSL значительно повышают точность выполнения команд по сравнению с использованием стандартных моделей общего назначения. Данный подход открывает возможности для внедрения инструментов автоматизации в инфраструктурные задачи, где цена ошибки при написании кода критически высока, а сложность существующих языков конфигурации ограничивает скорость внедрения новых политик безопасности.

Источник: arXiv

Похожие материалы

arXiv · Исследования и наука Новый метод дистилляции для генерации кода на предметно-ориентированных языках Исследователи представили метод контекстно-зависимой дистилляции (Context-Aware Distillation) для автоматического перевода естественного языка в код на предметно-ориентированных языках (DSL). В отличие от стандартных подходов, полагающихся исключительно на промпты, новая методика использует структурированный контекст, включающий грамматику Бэкуса-Наура (BNF) и спецификации API. В качестве «учителя» для обучения компактных моделей выступает DeepSeek-V4-Flash, который генерирует качественные обучающие данные, опираясь на жесткие синтаксические правила целевой среды. Hacker News · Машинное обучение Оптимизация LLM для ускорения генерации программного кода Исследователи представили методы оптимизации языковых моделей, направленные на повышение скорости генерации программного кода. Основная проблема при работе с кодом заключается в высокой вычислительной сложности инференса, так как структура синтаксиса требует точного предсказания длинных последовательностей токенов. Авторы работы анализируют влияние различных архитектурных решений на задержку (latency) и пропускную способность при выполнении задач программирования. Hacker News · Инфраструктура для агентов Методы управления поведением LLM в агентных системах Эффективная работа с большими языковыми моделями в рамках автоматизированных систем требует перехода от простых текстовых запросов к структурированным методам управления. Основная проблема заключается в непредсказуемости ответов модели, что затрудняет интеграцию ИИ в программные пайплайны. Для решения этой задачи используются подходы, позволяющие жестко ограничивать формат вывода и логику принятия решений. Hacker News · Исследования и наука Предвзятость LLM при генерации доступного программного кода Исследования показывают, что современные большие языковые модели при написании кода часто игнорируют стандарты цифровой доступности. В ходе анализа работы Claude Code было выявлено, что нейросети склонны предлагать решения, которые соответствуют базовой функциональности, но не учитывают потребности пользователей с ограниченными возможностями. В частности, модели редко используют семантически корректную разметку HTML, пропускают атрибуты ARIA и не обеспечивают полноценную поддержку управления с клавиатуры, если это не указано в явном запросе. Hacker News · Исследования и наука Проблема интерпретируемости кода, написанного ИИ Современные системы генерации кода демонстрируют высокую эффективность в решении сложных инженерных задач, однако их внутренняя логика остается непрозрачной для разработчиков. Исследователи отмечают, что при автоматическом создании программных решений нейросети часто выбирают неочевидные пути реализации, которые не соответствуют классическим паттернам программирования. Это создает серьезные риски при интеграции такого кода в критически важные инфраструктурные системы, где требуется полная предсказуемость поведения. arXiv · Исследования и наука ИИ автоматизирует проверку воспроизводимости исследований Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности. Hacker News · Инфраструктура для агентов Автоматическая маршрутизация запросов для оптимизации стоимости и скорости LLM Компания Factory представила инструмент для автоматической маршрутизации запросов между различными языковыми моделями. Система в режиме реального времени анализирует входящие задачи и перенаправляет их на наиболее подходящую модель, исходя из заданных параметров стоимости и времени отклика. Такой подход позволяет компаниям снизить расходы на API, не жертвуя качеством ответов в критически важных сценариях. arXiv · Безопасность и алайнмент GAS-Leak-LLM: генетический алгоритм для взлома LLM Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам. arXiv · Машинное обучение Новый метод декодирования для борьбы с повторами в LLM Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи. Hacker News · Инфраструктура для агентов Crespo: использование AST-структур для оптимизации работы LLM с кодом Проект Crespo предлагает новый подход к взаимодействию языковых моделей с исходным кодом. Вместо передачи в модель «сырого» текста, инструмент использует возможности Tree-sitter для генерации абстрактных синтаксических деревьев (AST). Это позволяет преобразовывать сложные кодовые базы в структурированные «чертежи», которые содержат только ключевую логическую информацию, необходимую для понимания структуры программы.

← Все материалы