Hacker News · 26.06.2026 ·Машинное обучение

Проблема Mathi: почему LLM ошибаются в генерации кода

Исследователи выявили «проблему Mathi» — специфический феномен, при котором языковые модели систематически допускают ошибки при генерации кода с использованием библиотек, имеющих схожие названия или API. Ошибка возникает из-за смешивания контекстов обучения, когда модель путает популярные пакеты с менее известными аналогами, что приводит к созданию неработоспособных или уязвимых программных решений в реальных проектах.

Суть проблемы заключается в том, что модели склонны к «галлюцинациям» при работе с API, которые редко встречаются в обучающей выборке или имеют пересекающиеся пространства имен. Даже при наличии корректных инструкций, LLM часто подставляют методы из более распространенных библиотек, игнорируя специфику требуемого инструмента. Это создает серьезные риски для автоматизированных систем разработки, где код генерируется без глубокой проверки человеком.

Для минимизации подобных сбоев разработчикам рекомендуется использовать строгие системные промпты, ограничивающие область поиска библиотек, а также внедрять инструменты статического анализа для проверки сгенерированного кода на этапе компиляции. Понимание того, как модели «путают» зависимости, позволяет лучше настраивать пайплайны RAG и контекстные окна, чтобы снизить вероятность критических ошибок в продакшн-коде.

Ключевые факты

Проблема Mathi названа в честь конкретного случая путаницы между библиотеками, где модель игнорировала документацию в пользу наиболее вероятных токенов из общего корпуса.
Ошибки чаще всего проявляются при работе с API, имеющими схожие сигнатуры функций, но разную логику реализации.
Исследование подтверждает, что даже продвинутые модели (GPT-4, Claude) подвержены этому эффекту при отсутствии жестких ограничений в контексте.
Автоматическая проверка сгенерированного кода через линтеры и тесты является единственным надежным способом защиты от подобных галлюцинаций в CI/CD пайплайнах.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Проблема интерпретируемости кода, написанного ИИ Современные системы генерации кода демонстрируют высокую эффективность в решении сложных инженерных задач, однако их внутренняя логика остается непрозрачной для разработчиков. Исследователи отмечают, что при автоматическом создании программных решений нейросети часто выбирают неочевидные пути реализации, которые не соответствуют классическим паттернам программирования. Это создает серьезные риски при интеграции такого кода в критически важные инфраструктурные системы, где требуется полная предсказуемость поведения. Hacker News · Исследования и наука Почему LLM теряют точность при выполнении длинных циклических задач Исследование выявило критическую проблему в работе больших языковых моделей при выполнении многошаговых итеративных процессов. С увеличением количества циклов вероятность ошибки возрастает экспоненциально из-за накопления отклонений от заданного протокола. Автор анализа вводит понятие «периода полураспада соблюдения протокола», объясняя, почему даже продвинутые модели склонны к деградации логики при выполнении длинных последовательностей действий. arXiv · Оценка и бенчмарки Исследование: риски использования LLM для автоматического исправления уязвимостей Новое исследование оценило эффективность LLM при устранении программных уязвимостей. Несмотря на способность моделей ускорять процесс написания патчей, их использование несет серьезные риски безопасности. В ходе эксперимента с участием разработчиков выяснилось, что автоматизированные подсказки часто приводят к внедрению новых ошибок или неполному исправлению критических брешей, требуя от специалистов тщательной проверки каждого предложенного решения. Hacker News · Оценка и бенчмарки Разрыв между оценкой ИИ и реальностью в математических доказательствах Исследование выявило критическую проблему в использовании LLM для проверки математических доказательств. Автоматизированный верификатор на базе ИИ оценил сгенерированные доказательства как практически идеальные, однако экспертная проверка показала, что лишь 17% из них являются верными. Этот результат подчеркивает опасность чрезмерного доверия к системам, которые обучались оценивать правдоподобность текста, а не его логическую строгость. arXiv · Машинное обучение Weave of Formal Thought: новый подход к генерации синтаксически корректного кода Исследователи представили метод Weave of Formal Thought, решающий проблему синтаксической неточности LLM при генерации кода. В отличие от существующих систем ограниченного декодирования, новый подход учитывает иерархическую структуру языков программирования и контекстно-зависимые лексические механизмы. Это позволяет моделям создавать программный код, который не только выглядит корректно, но и гарантированно соответствует строгим правилам синтаксиса целевого языка. arXiv · Исследования и наука Исследование: как языковые модели теряют логику при замене переменных Учёные из MIT и других институтов обнаружили любопытный феномен в языковых моделях: при замене переменных в задачах на каузальное рассуждение на нейтральные маркеры (например, «X» вместо «Джон») модели начинают давать разные ответы, хотя структура вопроса и правильный ответ остаются неизменными. Это указывает на то, что модели либо теряют часть информации при такой замене, либо не могут корректно интерпретировать сохранённую информацию. Hacker News · Исследования и наука Предвзятость LLM при генерации доступного программного кода Исследования показывают, что современные большие языковые модели при написании кода часто игнорируют стандарты цифровой доступности. В ходе анализа работы Claude Code было выявлено, что нейросети склонны предлагать решения, которые соответствуют базовой функциональности, но не учитывают потребности пользователей с ограниченными возможностями. В частности, модели редко используют семантически корректную разметку HTML, пропускают атрибуты ARIA и не обеспечивают полноценную поддержку управления с клавиатуры, если это не указано в явном запросе. Hacker News · Исследования и наука Ограничения метода имитации проприетарных LLM Исследование показывает, что дообучение моделей с открытым исходным кодом на ответах проприетарных LLM (метод дистилляции) часто приводит лишь к поверхностной имитации стиля, а не к реальному росту интеллектуальных способностей. Авторы доказывают, что такие модели склонны копировать ошибки и галлюцинации «учителя», не приобретая глубинных навыков рассуждения, необходимых для решения сложных задач. Hacker News · Прогнозы и тренды Разрыв в надежности ИИ: почему текущие модели не готовы к критическим задачам Современные большие языковые модели демонстрируют впечатляющие способности к генерации текста, однако сталкиваются с серьезным «разрывом в надежности» при выполнении задач, требующих высокой точности. Исследование подчеркивает, что отсутствие детерминизма и склонность к галлюцинациям делают текущие архитектуры непригодными для критически важных бизнес-процессов, где цена ошибки превышает допустимые риски автоматизации. Hacker News · ИИ в бизнесе Проблемы управления ИИ-кодом в корпоративной разработке Разработчики всё чаще внедряют в кодовую базу фрагменты, созданные ИИ, которые они не писали и не до конца понимают. GitLab представил стратегию управления ИИ-кодом, направленную на минимизацию рисков безопасности и технического долга. Основная задача — обеспечить прозрачность, проверяемость и соответствие стандартам качества в условиях массовой автоматизации генерации программного обеспечения.

← Все материалы