GitHub · 16.06.2026 ·Машинное обучение

Moebius: легковесная модель для ретуши изображений с качеством уровня 10B-моделей

Исследователи представили Moebius — компактную нейросетевую архитектуру для задачи заполнения пропущенных областей на изображениях (inpainting). Несмотря на крайне малый размер в 0,2 млрд параметров, модель демонстрирует качество генерации, сопоставимое с крупными решениями класса 10B. Разработка оптимизирована для эффективной работы в условиях ограниченных вычислительных ресурсов, сохраняя при этом высокую детализацию и структурную целостность восстанавливаемых фрагментов.

В основе подхода лежит оптимизация архитектурных связей, позволяющая эффективно использовать визуальные признаки без избыточного потребления памяти. Модель успешно справляется с удалением объектов, восстановлением поврежденных участков и дополнением сцен, что делает её перспективным инструментом для мобильных приложений и систем реального времени, где развертывание тяжелых диффузионных моделей затруднено.

Метод прошел апробацию на стандартных наборах данных, показав конкурентные результаты в сравнении с современными SOTA-решениями. Авторы подчеркивают, что Moebius значительно снижает порог входа для внедрения качественного визуального редактирования в клиентские устройства, минимизируя задержки при обработке графического контента.

Ключевые факты

Размер модели составляет 0,2 млрд параметров, что значительно меньше актуальных аналогов.
Качество генерации соответствует моделям с 10 млрд параметров.
Архитектура представлена в рамках конференции ECCV 2026.
Решение ориентировано на задачи image inpainting (ретушь и восстановление изображений).
Разработка позволяет перенести сложные визуальные вычисления на устройства с ограниченным «железом».

Источник: GitHub

Обсудить с ИИ

Похожие материалы

Simon Willison's Weblog · Инференс и железо Запуск легковесной модели Moebius 0.2B в браузере Представлена модель Moebius, предназначенная для качественного заполнения областей на изображениях (inpainting). Несмотря на компактный размер в 0,2 миллиарда параметров, архитектура демонстрирует эффективность, сопоставимую с гораздо более тяжелыми решениями уровня 10 миллиардов параметров. Изначально модель требовала для работы среды PyTorch и графических ускорителей NVIDIA с поддержкой CUDA. Hacker News · Исследования и наука Нейронное сжатие изображений с использованием Gemini 3 Исследователи представили метод нейронного сжатия изображений, использующий возможности мультимодальной модели Gemini 3 для повышения эффективности кодирования визуальных данных. Новый подход позволяет достичь высокого качества восстановления при значительно меньшем объеме файлов по сравнению с традиционными алгоритмами, такими как JPEG или WebP, за счет глубокого понимания семантического содержания изображения и контекстуальной реконструкции деталей. MarkTechPost · Инференс и железо Baidu представила Unlimited OCR: 3B-модель с фиксированным потреблением памяти Baidu выпустила Unlimited OCR — специализированную MoE-модель с 3 млрд параметров, предназначенную для обработки многостраничных документов. Главная особенность архитектуры заключается в использовании механизма Reference Sliding Window Attention (R-SWA), который поддерживает постоянный размер KV-кэша. Это позволяет модели сохранять стабильную скорость работы и потребление памяти независимо от объема входных данных, значительно превосходя существующие аналоги. arXiv · Оценка и бенчмарки TriViewBench: новый бенчмарк для оценки пространственного мышления мультимодальных моделей Исследователи представили TriViewBench — новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к пространственному мышлению. В отличие от стандартных тестов, TriViewBench использует синтетические 3D-сцены с контролируемыми параметрами сложности, такими как количество объектов и степень их перекрытия. Это позволяет точно измерить, как именно архитектура модели справляется с интерпретацией сложных визуальных структур с разных ракурсов. Hacker News · Модели и релизы Технический отчет Krea 2: архитектура и возможности новой модели Команда Krea представила технический отчет о своей новой модели Krea 2, предназначенной для генерации изображений и видео в реальном времени. Разработчики сфокусировались на оптимизации процесса диффузии, что позволило значительно сократить время отклика системы при сохранении высокой детализации контента. В основе архитектуры лежит гибридный подход, сочетающий методы быстрой генерации с улучшенными алгоритмами контроля композиции и стилизации. NVIDIA Technical Blog · Модели и релизы Как NVIDIA ускорила обучение MoE-моделей на 30% NVIDIA представила новые методы оптимизации обучения Mixture-of-Experts (MoE) моделей, которые стали ключевым компонентом современных ИИ-систем. Исследователи компании разработали продвинутые ядра слияния (fusion kernels), которые позволяют значительно ускорить процесс обучения. The latest research from Google · Модели и релизы TurboQuant: алгоритмы для сверхкомпактных моделей Исследователи Google DeepMind представили TurboQuant — набор алгоритмов для экстремальной компрессии нейросетей. Технология позволяет сократить размер модели в 10–100 раз без потери точности, что критически важно для локального развёртывания ИИ-агентов. Artificial intelligence – MIT Technology Review · Машинное обучение Стартап Subquadratic заявляет о прорыве в архитектуре языковых моделей Майамский стартап Subquadratic вышел из режима скрытности с заявлением о решении фундаментальной математической проблемы, ограничивавшей развитие больших языковых моделей на протяжении последних десяти лет. Речь идет о преодолении вычислительного барьера, связанного с квадратичной сложностью механизмов внимания в архитектуре Transformer. Традиционно потребность в ресурсах при обработке контекста растет пропорционально квадрату длины последовательности, что создает серьезные препятствия для работы с длинными документами и большими объемами данных. Hacker News · Инференс и железо Энергоэффективность нейропроцессоров: бенчмарк Memryx MX3 на граничных устройствах Исследование производительности и энергопотребления специализированного ИИ-ускорителя Memryx MX3 демонстрирует возможности запуска глубоких нейронных сетей на периферийных устройствах. Автор тестирует чип в задачах инференса, сравнивая показатели энергоэффективности и задержки с традиционными решениями, что критически важно для развертывания автономных агентных систем вне облачной инфраструктуры и обеспечения работы ИИ в условиях ограниченного питания. Hugging Face - Blog · Модели и релизы Mellum2: новая 12-миллиардная модель от JetBrains для локального использования JetBrains представила Mellum2 — новую 12-миллиардную модель, основанную на архитектуре Mixture-of-Experts (MoE). Эта модель разработана для эффективного локального использования, что делает её особенно интересной для разработчиков ИИ-агентов, которым важна производительность на локальных устройствах.

← Все материалы