arXiv · 15.06.2026 ·Модели и релизы

Как улучшить точность небольших моделей кода без переобучения

Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода.

Основное внимание уделено двум операторам, работающим на уровне выражения, а не семантического пространства. Первый оператор (M1) позволяет восстанавливать правильные программы, которые стандартные экстракторы отбрасывают. Этот метод не только не ухудшает качество (b10=0), но и полностью исключает утечку данных. Второй оператор помогает выравнивать сигнатуры тестов с публичными тестами, что также улучшает точность.

В результате применения этих операторов модель DeepSeek-Coder-1.3B показала улучшение на 12 задачах в наборе HumanEval+ (p=2.4e-4). Это значительный результат, учитывая, что модель не подвергалась дополнительному обучению. Подход может быть полезен для разработчиков ИИ-агентов, работающих с кодом, так как позволяет повысить точность без сложных и ресурсоемких процессов переобучения.

Авторы подчеркивают, что предложенные методы не только эффективны, но и безопасны, так как не требуют доступа к исходным данным. Это делает их особенно привлекательными для практического применения в различных сценариях, включая разработку ИИ-агентов, которые генерируют и оптимизируют код.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы Технические секреты успеха DeepSeek: как модель обошла Claude 3 Opus Команда DeepSeek раскрыла архитектурные и методологические подходы, позволившие их последним моделям превзойти Claude 3 Opus в ряде бенчмарков. Основной упор был сделан на оптимизацию процесса обучения, использование специфических методов масштабирования и эффективную работу с данными, что позволило достичь высокой производительности при значительно меньших вычислительных затратах по сравнению с конкурентами от ведущих лабораторий. Hacker News · Разработка и инструменты Цикл верификации повысил эффективность DeepSeek в 4 раза Внедрение автоматизированного цикла верификации позволило модели DeepSeek достичь уровня производительности Claude 3 Opus, сократив при этом затраты на вычисления в семь раз. Использование итеративного процесса проверки кода агентом значительно снижает количество ошибок и повышает качество генерации, что делает подход эффективным инструментом для оптимизации агентных систем при ограниченном бюджете. Hacker News · Модели и релизы DeepSeek представила новую архитектуру для эффективного обучения моделей Компания DeepSeek выпустила обновление, которое существенно меняет подход к обучению крупномасштабных языковых моделей. Разработчики представили архитектурные решения, позволяющие значительно сократить вычислительные затраты при сохранении высокой производительности. Новые методы оптимизации направлены на повышение эффективности работы с параметрами и ускорение процесса обучения, что делает передовые ИИ-технологии более доступными для широкого спектра задач. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. Hacker News · Исследования и наука Исследователи обнаружили «нейроны безопасности» в LLM для поиска уязвимостей в коде Исследователи выявили специфические слои нейронов в архитектуре больших языковых моделей, которые отвечают за распознавание уязвимостей в программном коде. Анализ показал, что эти нейронные структуры активируются при обработке небезопасных паттернов, что позволяет использовать их для автоматизированного аудита безопасности. Открытие дает новый метод интерпретации внутренних механизмов принятия решений моделями при анализе кода. Hacker News · Инференс и железо Новый компилятор для Edge AI превосходит решения от Google и вендоров Компания DeepGate представила специализированный компилятор, предназначенный для оптимизации нейросетевых моделей при запуске на периферийных устройствах (Edge AI). Инструмент ориентирован на повышение производительности инференса и снижение энергопотребления, что является критическим фактором для работы ИИ вне облачных дата-центров. Разработчики заявляют, что их решение демонстрирует более высокую эффективность по сравнению с популярными стандартными инструментариями, включая проприетарные стеки от производителей аппаратного обеспечения и открытые решения от Google. Hacker News · Машинное обучение Использование режима написания кода для повышения точности малых LLM Исследования показывают, что перевод малых языковых моделей в режим генерации кода значительно повышает их логические способности при решении задач общего характера. Принудительное использование синтаксиса программирования заставляет модель структурировать мысли, что компенсирует нехватку параметров и улучшает качество ответов в сложных многошаговых задачах, где обычные текстовые промпты часто приводят к галлюцинациям. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. arXiv · Исследования и наука Новый подход к оптимизации нейронных декодеров для квантовых вычислений Исследователи представили метод повышения эффективности фундаментальных нейронных декодеров, критически важных для отказоустойчивых квантовых вычислений. Предложенный подход решает проблему масштабируемости при работе с большими кодовыми расстояниями, значительно снижая вычислительные затраты на генерацию синдромов и оптимизацию нейронных сетей. Это открывает путь к более надежной коррекции ошибок в крупномасштабных квантовых системах. arXiv · Безопасность и алайнмент Исследование уязвимостей в коде, сгенерированном ИИ-ассистентами Исследователи проанализировали способность пяти популярных ИИ-ассистентов генерировать безопасный код для систем аутентификации. Результаты показали, что модели часто допускают критические уязвимости. Авторы предложили метод итеративного перепромптинга, который значительно снижает количество ошибок в коде, повышая общую защищенность программных продуктов, создаваемых с помощью генеративного ИИ в процессе разработки.

← Все материалы