arXiv · 30.06.2026 ·Машинное обучение

Метод автоматической проверки статистической корректности кода от LLM

Исследователи представили подход к верификации вероятностных программ, написанных языковыми моделями. Хотя LLM успешно генерируют синтаксически верный код на NumPyro, Stan или Pyro, они часто допускают статистические ошибки, такие как выбор неподходящего распределения или некорректные априорные параметры. Новый метод калибровки позволяет выявлять и исправлять подобные логические несоответствия, которые не обнаруживаются стандартными юнит-тестами.

Проблема заключается в том, что даже рабочий код может выдавать статистически неверные результаты из-за несоответствия модели данных природе самих данных. Например, использование распределения Гаусса для данных с «тяжелыми хвостами» или некорректная параметризация приводят к ошибкам в выводах. Авторы предлагают заменить классическое тестирование на процедуру статистической калибровки, которая оценивает адекватность модели через проверку соответствия параметров и структуры программы статистическим свойствам входных данных.

Этот подход автоматизирует процесс отладки вероятностного программирования, снижая риск получения неверных научных или бизнес-инсайтов. Система анализирует структуру программы и автоматически предлагает исправления, если обнаруживает патологические параметры или нарушение условий применимости статистических методов. Это критически важно для областей, где точность вероятностного моделирования напрямую влияет на принятие решений.

Ключевые факты

Исследование сфокусировано на исправлении ошибок в вероятностных программах на языках NumPyro, Stan и Pyro.
Метод фокусируется на выявлении статистических дефектов, таких как неверный выбор функции правдоподобия или некорректная поддержка априорных распределений.
Предложенный подход заменяет традиционные юнит-тесты на процедуру статистической калибровки, проверяющую соответствие модели данным.
Автоматизация процесса позволяет исправлять ошибки, которые остаются незамеченными при стандартной проверке компиляции и выполнения кода.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Новые методы повышения точности LLM как судей в оценке моделей Исследователи представили усовершенствованные подходы к использованию LLM в качестве «судей» для автоматизированной оценки качества ответов других моделей. Авторы статьи систематизировали методы минимизации предвзятости и повышения корреляции оценок ИИ с человеческими предпочтениями, предложив новые стратегии промптинга и калибровки, которые позволяют значительно точнее определять качество генерации в сложных задачах без привлечения экспертов-людей. arXiv · Исследования и наука ИИ автоматизирует проверку воспроизводимости исследований Учёные из Гарварда и MIT разработали метод, позволяющий использовать большие языковые модели (LLM) для автоматизированной оценки воспроизводимости исследований в социальных и поведенческих науках. Обычно проверка воспроизводимости требует ручного анализа данных независимыми исследователями, что занимает много времени и ресурсов. Новый подход позволяет значительно ускорить этот процесс, применяя LLM для анализа опубликованных данных и оценки их достоверности. arXiv · Исследования и наука Когнитивные искажения LLM при поиске уязвимостей в коде Исследователи проанализировали, как когнитивные эвристики влияют на способность больших языковых моделей находить уязвимости в программном коде. Выяснилось, что нейросети подвержены тем же систематическим ошибкам мышления, что и люди-разработчики. Это ограничивает надежность автоматизированных систем безопасности, так как модели склонны принимать предвзятые решения при оценке потенциально опасных фрагментов кода, что требует пересмотра подходов к их обучению и тестированию. arXiv · Оценка и бенчмарки Исследование: риски использования LLM для автоматического исправления уязвимостей Новое исследование оценило эффективность LLM при устранении программных уязвимостей. Несмотря на способность моделей ускорять процесс написания патчей, их использование несет серьезные риски безопасности. В ходе эксперимента с участием разработчиков выяснилось, что автоматизированные подсказки часто приводят к внедрению новых ошибок или неполному исправлению критических брешей, требуя от специалистов тщательной проверки каждого предложенного решения. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. Hacker News · Оценка и бенчмарки Оценка уверенности LLM-судей эффективнее простого сравнения ответов Исследователи предложили новый подход к оценке качества работы LLM-судей, которые используются для автоматического тестирования других моделей. Традиционная методика опирается на «согласие» (agreement) — совпадение оценок ИИ с мнением человека или другой эталонной модели. Однако этот показатель часто оказывается обманчивым, так как модели могут давать одинаковые ответы по разным причинам, включая случайные ошибки или предвзятость к определенным формулировкам. arXiv · Оценка и бенчмарки Новый метод борьбы с предвзятостью LLM-судей при оценке качества ответов Исследователи представили новый подход к оценке больших языковых моделей, использующих другие LLM в качестве «судей». Текущие системы автоматической оценки часто страдают от систематических искажений, не связанных с качеством контента. Наиболее выраженной проблемой является «предвзятость к многословию»: модели склонны завышать оценки длинным ответам, даже если они менее точны или информативны, чем краткие варианты. Hacker News · Машинное обучение Обучение LLM точному следованию вероятностным инструкциям Исследователи представили метод дообучения языковых моделей, позволяющий им с высокой точностью имитировать случайные процессы, такие как бросок игральной кости. Традиционные LLM часто демонстрируют предвзятость при генерации случайных чисел, отдавая предпочтение определенным цифрам из-за особенностей обучающей выборки и механизмов токенизации. Новый подход фокусируется на исправлении этой системной ошибки через специализированный этап пост-тренировки с использованием методов обучения с подкреплением. Hacker News · ИИ в бизнесе Эффективность LLM при аудите безопасности кода на Rust Исследование применения больших языковых моделей для поиска уязвимостей в языке программирования Rust показало неожиданно высокие результаты. Несмотря на встроенные механизмы безопасности Rust, такие как проверка владения памятью, критические ошибки все еще могут возникать в блоках unsafe или при использовании небезопасных API. Использование специализированных промптов и итеративного анализа позволяет нейросетям находить сложные логические дефекты, которые часто пропускают традиционные статические анализаторы. arXiv · Оценка и бенчмарки BINEVAL: новый подход к интерпретируемой оценке LLM через бинарные вопросы Исследователи представили BINEVAL — фреймворк для оценки качества ответов LLM, который заменяет непрозрачные балльные системы на серию атомарных бинарных вопросов. Такой подход позволяет точно локализовать ошибки модели, делая процесс оценки более интерпретируемым и пригодным для автоматизированного самообучения, что решает проблему низкой корреляции традиционных метрик с человеческими суждениями при работе с открытыми генеративными задачами.

← Все материалы