Hacker News · 23.06.2026 ·Машинное обучение

Сжатие данных с помощью переобученного трансформера

Исследователи продемонстрировали необычный метод сжатия данных, используя архитектуру трансформера. В ходе эксперимента модель объемом 900 КБ была целенаправленно переобучена (overfitted) на конкретном наборе данных — CSV-файле размером 100 МБ. В результате удалось достичь высокой степени компрессии, сократив исходный объем информации до 7 МБ.

Метод основан на способности нейронных сетей запоминать закономерности внутри обучающей выборки. Вместо классических алгоритмов сжатия, таких как gzip или zstd, модель «выучивает» структуру данных, превращая их в веса нейронной сети. При необходимости восстановления исходного файла модель генерирует данные, опираясь на заложенные в параметры связи.

Данный подход открывает новые перспективы в области хранения данных и передачи информации, где критически важен минимальный размер архива. Несмотря на то, что процесс обучения требует значительных вычислительных ресурсов, а восстановление данных ограничено точностью модели, этот эксперимент показывает потенциал использования глубокого обучения для задач, традиционно решаемых алгоритмами сжатия без потерь.

Источник: Hacker News

Похожие материалы

arXiv · Машинное обучение Новый метод масштабируемого слияния предобученных трансформеров Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. The latest research from Google · Модели и релизы TurboQuant: алгоритмы для сверхкомпактных моделей Исследователи Google DeepMind представили TurboQuant — набор алгоритмов для экстремальной компрессии нейросетей. Технология позволяет сократить размер модели в 10–100 раз без потери точности, что критически важно для локального развёртывания ИИ-агентов. Hacker News · Исследования и наука Tree Transformers: новый подход к архитектуре нейросетей Исследователи представили архитектуру Tree Transformers, которая меняет способ обработки иерархических данных в нейронных сетях. В отличие от стандартных трансформеров, работающих с линейными последовательностями токенов через механизмы внимания, новая модель опирается на древовидную структуру данных. Это позволяет эффективнее моделировать зависимости в задачах, где важна вложенность и иерархия, например, при анализе синтаксиса языков программирования или сложных математических выражений. NVIDIA Technical Blog · Машинное обучение Как оптимизировать трансформеры для обучения с низкой точностью Трансформеры лежат в основе многих современных языковых и генеративных моделей. С ростом их размера увеличивается и потребление вычислительных ресурсов, особенно GPU. NVIDIA предложила методы оптимизации для обучения моделей с низкой точностью, что позволяет снизить нагрузку на оборудование. arXiv · Машинное обучение Исследование: неравномерное распределение параметров в трансформерах Учёные изучили эффективность неравномерного распределения параметров в трансформерах. Обычно архитектуры трансформеров используют одинаковую ширину во всех слоях, что приводит к равномерному распределению вычислительных ресурсов. Однако новые исследования показывают, что разные слои могут выполнять разные роли, и их вычислительные потребности могут отличаться. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. Hacker News · Исследования и наука Next-Latent Prediction: новый подход к обучению компактных моделей мира Исследователи представили метод Next-Latent Prediction (NLP), который меняет подход к обучению трансформеров для моделирования динамических сред. В отличие от традиционных моделей, предсказывающих будущие токены в пространстве пикселей или дискретных состояний, этот метод фокусируется на прогнозировании скрытых представлений (латентных векторов). Такой подход позволяет модели сжимать информацию о визуальных и физических процессах, отсекая избыточные детали и концентрируясь на ключевых закономерностях среды. Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность.

← Все материалы