Исследователи представили метод нейронного сжатия изображений, использующий возможности мультимодальной модели Gemini 3 для повышения эффективности кодирования визуальных данных. Новый подход позволяет достичь высокого качества восстановления при значительно меньшем объеме файлов по сравнению с традиционными алгоритмами, такими как JPEG или WebP, за счет глубокого понимания семантического содержания изображения и контекстуальной реконструкции деталей.
В основе метода лежит каскадная архитектура, где модель выступает в роли интеллектуального кодека. Вместо попиксельного сжатия система анализирует структуру сцены, выделяя ключевые объекты и текстуры, которые требуют высокой точности передачи, и оптимизирует распределение битов для менее значимых областей. Это позволяет сохранять визуальную целостность даже при экстремально низком битрейте, что критически важно для передачи контента в условиях ограниченной пропускной способности сетей.
Технология демонстрирует потенциал нейросетей в задачах, которые ранее решались исключительно математическими методами сжатия без потерь или с фиксированными алгоритмами. Использование генеративных способностей модели позволяет «дорисовывать» отсутствующие данные на основе обученных паттернов, что делает результат визуально более приятным для человеческого глаза, чем при использовании стандартных методов сжатия, склонных к появлению артефактов.
Ключевые факты
- Метод использует архитектуру каскадного сжатия, интегрированную с возможностями модели Gemini 3.
- Система оптимизирует битрейт, фокусируясь на семантически важных объектах изображения, а не на равномерном кодировании всех пикселей.
- Технология обеспечивает более высокую визуальную четкость при низких размерах файлов по сравнению с классическими форматами JPEG и WebP.
- Подход позволяет использовать генеративные способности модели для реконструкции деталей, которые теряются при традиционном сжатии.