Компания DeepReinforce представила Ornith-1.0 — семейство открытых моделей для программирования, построенных на базе архитектур Gemma 4 и Qwen 3.5. Главной особенностью релиза стал отказ от фиксированных схем обучения с подкреплением (RL) в пользу динамических структур, которые модель формирует самостоятельно в процессе тренировки. Флагманская версия с 397 млрд параметров достигла показателя 82.4 на бенчмарке SWE-Bench Verified.

Традиционные подходы к обучению моделей для написания кода часто опираются на жестко заданные правила и внешние инструменты для проверки корректности кода. Ornith-1.0 меняет этот подход, позволяя нейросети самостоятельно выстраивать логику взаимодействия с окружением через механизмы обучения с подкреплением. Это позволяет модели эффективнее адаптироваться к сложным задачам разработки, требующим многошагового планирования и отладки.

Все веса моделей семейства Ornith-1.0 опубликованы под лицензией MIT, что делает их доступными для широкого использования в исследовательских и коммерческих целях. Интеграция передовых базовых архитектур с инновационным методом обучения позволяет этим моделям конкурировать с ведущими проприетарными решениями в задачах автоматизированного решения программных проблем.

Ключевые факты

  • Семейство Ornith-1.0 базируется на архитектурах Gemma 4 и Qwen 3.5.
  • Флагманская модель содержит 397 миллиардов параметров.
  • Результат на SWE-Bench Verified составляет 82.4 балла.
  • Все веса моделей распространяются по лицензии MIT.
  • Модели используют метод самостоятельного формирования RL-структур вместо использования фиксированных внешних инструментов.