arXiv · 30.06.2026 ·Разработка и инструменты

AxDafny: агентный подход к генерации верифицируемого кода

Исследователи представили AxDafny — фреймворк для агентной генерации кода на языке Dafny, который автоматически создает не только исполняемые программы, но и доказательства их корректности. Система использует итеративный процесс исправления ошибок, опираясь на обратную связь от верификатора для уточнения инвариантов, утверждений и аргументов завершимости, что позволяет создавать программное обеспечение с гарантированным отсутствием критических уязвимостей.

Традиционные LLM часто допускают логические ошибки при написании кода, которые сложно обнаружить без глубокого тестирования. AxDafny меняет парадигму, превращая процесс написания кода в цикл взаимодействия между языковой моделью и формальным верификатором. Агент последовательно генерирует код и необходимые для него доказательства, анализирует сообщения об ошибках от компилятора Dafny и автоматически вносит правки до тех пор, пока программа не пройдет полную верификацию.

Для оценки эффективности системы авторы разработали бенчмарк LCB-Pro-Dafny, включающий 250 задач по программированию повышенной сложности. Этот набор данных позволяет измерять способность моделей справляться с задачами, требующими не только синтаксической точности, но и глубокого понимания формальной логики и алгоритмических доказательств, что является важным шагом в сторону создания надежных ИИ-ассистентов для критически важных систем.

Ключевые факты

AxDafny — фреймворк для итеративной генерации кода и доказательств корректности на языке Dafny.
Система автоматически исправляет код на основе отчетов верификатора, уточняя инварианты и утверждения.
Представлен новый бенчмарк LCB-Pro-Dafny, состоящий из 250 задач уровня соревновательного программирования.
Подход направлен на решение проблемы галлюцинаций в коде через интеграцию формальных методов верификации в агентный цикл.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Weave of Formal Thought: новый подход к генерации синтаксически корректного кода Исследователи представили метод Weave of Formal Thought, решающий проблему синтаксической неточности LLM при генерации кода. В отличие от существующих систем ограниченного декодирования, новый подход учитывает иерархическую структуру языков программирования и контекстно-зависимые лексические механизмы. Это позволяет моделям создавать программный код, который не только выглядит корректно, но и гарантированно соответствует строгим правилам синтаксиса целевого языка. Hacker News · Инфраструктура для агентов AiCompiler: язык программирования, где LLM выступает в роли центрального процессора AiCompiler представляет собой экспериментальный подход к разработке, где языковые модели интегрируются непосредственно в логику исполнения кода. Вместо традиционных вызовов API разработчики описывают задачи на декларативном языке, а компилятор делегирует выполнение операций LLM, превращая модель в вычислительное ядро системы. Это позволяет автоматизировать сложные цепочки рассуждений и манипуляций данными внутри программного кода. GitHub · Инфраструктура для агентов Cloudflare представила инструмент для автоматизированного аудита безопасности кода Cloudflare выпустила open-source решение security-audit-skill, предназначенное для интеграции в кодинг-агентов. Инструмент автоматизирует многоэтапный процесс проверки безопасности программного обеспечения, обеспечивая независимую верификацию результатов. Система генерирует машиночитаемые отчеты, что позволяет агентам не только находить уязвимости, но и структурированно обрабатывать их в рамках пайплайнов разработки, минимизируя участие человека в рутинных проверках. Hacker News · Инфраструктура для агентов AI-whisper: инструмент для повышения точности Claude через проверку кода AI-whisper — это новый инструмент для оркестрации, который повышает качество ответов модели Claude при написании кода. Система использует модель Codex для автоматической проверки и валидации сгенерированных фрагментов в реальном времени. Это позволяет выявлять ошибки на этапе генерации, обеспечивая более высокую надежность агентных рабочих процессов и снижая количество правок. Hacker News · Инфраструктура для агентов Verity: инструмент для автоматической проверки и исправления кода в Claude Code Verity представляет собой систему контроля качества для Claude Code, которая автоматически проверяет сгенерированный код на соответствие заданным критериям перед его фиксацией. Инструмент выступает в роли «гейткипера», анализируя результаты выполнения и исправляя ошибки в итеративном режиме, что снижает количество ручных правок и повышает надежность агентских рабочих процессов при разработке ПО. Hacker News · Инфраструктура для агентов Anchored: система верификации доказательств для ИИ-агентов в разработке Anchored — это новый фреймворк для автономных ИИ-агентов, пишущих код, который внедряет механизм «шлюзов доказательств» (evidence gates). Система заставляет агента предоставлять проверяемые подтверждения выполнения задач перед переходом к следующему этапу разработки. Это снижает вероятность галлюцинаций и ошибок при автоматизированном написании и тестировании программного обеспечения, обеспечивая более строгий контроль над качеством кода. Hacker News · Разработка и инструменты Методика верификации кода для ИИ-агентов Для повышения качества генерации кода в агентных системах предлагается внедрение обязательного этапа самопроверки. Вместо того чтобы полагаться исключительно на первичный результат работы большой языковой модели, разработчикам рекомендуется интегрировать в пайплайн дополнительные шаги верификации. Суть подхода заключается в принудительном выполнении сгенерированного кода в изолированной среде и последующем анализе ошибок с помощью самой модели. arXiv · Оценка и бенчмарки Исследование методов оценки агентных систем для анализа данных Исследователи проанализировали надежность автоматизированных систем оценки для агентных инструментов анализа данных. В работе подчеркивается, что многошаговая природа таких агентов, генерирующих код и интерпретации, усложняет верификацию результатов. Авторы предлагают методологию разграничения реальных ошибок агента и артефактов, возникающих из-за несовершенства самих алгоритмов оценки, что критически важно для повышения точности тестирования сложных ИИ-систем. Hacker News · Разработка и инструменты Практическое руководство по работе с Claude Code Claude Code представляет собой CLI-инструмент, позволяющий разработчикам интегрировать возможности моделей Anthropic непосредственно в терминал для автоматизации написания кода, отладки и выполнения тестов. Инструмент выступает в роли автономного агента, который анализирует кодовую базу, выполняет команды в среде пользователя и предлагает изменения, значительно ускоряя процесс разработки и рефакторинга сложных программных проектов. Hacker News · Инфраструктура для агентов Forge: система контроля качества кода для ИИ-агентов Инструмент Forge предназначен для автоматизации проверки качества кода, создаваемого ИИ-агентами в процессе разработки. Система выступает в роли «защитного барьера», который анализирует сгенерированные скрипты и программные решения на соответствие заданным стандартам до их интеграции в кодовую базу. Это позволяет минимизировать количество ошибок, уязвимостей и неоптимальных конструкций, которые часто возникают при использовании LLM для написания кода.

← Все материалы