Hacker News · 30.06.2026 ·Данные и инжиниринг

Работа с петабайтами астрономических данных на обычном ноутбуке

Hugging Face представила проект Hugging Science, позволяющий исследователям работать с массивами астрономических данных объемом более 80 ТБ без необходимости загрузки всей базы на локальный диск. Используя методы кросс-матчинга и облачную инфраструктуру, ученые могут выполнять сложные запросы к каталогам Вселенной, используя лишь вычислительные мощности персонального компьютера и эффективные инструменты индексации данных.

Основная проблема работы с крупными научными наборами данных заключается в их физическом объеме, который превышает возможности стандартных рабочих станций. Новый подход опирается на использование векторных представлений и оптимизированных форматов хранения, что позволяет проводить поиск по миллиардам небесных объектов в режиме реального времени. Это значительно снижает порог входа для астрофизиков, не имеющих доступа к мощным кластерам.

Технология опирается на интеграцию с облачными хранилищами, где данные индексируются таким образом, чтобы локальный клиент запрашивал только необходимые фрагменты. Такой метод «ленивой» загрузки данных (lazy loading) в сочетании с алгоритмами пространственного поиска позволяет проводить кросс-корреляцию между различными каталогами, что раньше требовало недель вычислений на специализированном оборудовании.

Ключевые факты

Объем обрабатываемых астрономических данных превышает 80 ТБ.
Использование облачной индексации позволяет избежать локального хранения полных наборов данных.
Инструментарий обеспечивает кросс-матчинг между различными каталогами объектов Вселенной.
Решение ориентировано на исследователей, работающих на стандартном потребительском оборудовании.
Проект реализован в рамках инициативы Hugging Science для демократизации доступа к научным данным.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Масштабируемые байесовские модели для анализа временных рядов в астрономии Исследователи представили новый метод обработки высокочастотных данных астрономических наблюдений, позволяющий эффективно выявлять вспышки на звездах. Традиционные гауссовские процессы (GP) часто сталкиваются с вычислительными ограничениями при работе с длинными временными рядами из-за кубической сложности алгоритмов. Авторы работы предложили решение, объединяющее амортизированный байесовский вывод и скрытые марковские модели (HMM), что позволяет значительно ускорить анализ без потери точности. Hugging Face - Blog · Инфраструктура для агентов Новый подход к хранению данных в Transformers.js Команда Hugging Face представила эксперимент по внедрению Cross-Origin Storage API в библиотеку Transformers.js. Это решение направлено на преодоление ограничений браузерной изоляции, которые затрудняют работу с большими весами моделей и кэшированием данных в клиентских приложениях. Использование нового API позволяет организовать общее хранилище между различными источниками, что критически важно для эффективной работы локальных ИИ-моделей в веб-среде. Hacker News · Данные и инжиниринг Поиск по 540 000 государственным датасетам США на двух ядрах CPU Запущен поисковый сервис findgovdata.org, предоставляющий доступ к более чем 540 тысячам наборов данных правительства США. Особенность проекта заключается в отказе от использования LLM и тяжелых векторных баз данных в пользу гибридного поиска, оптимизированного для работы на минимальных вычислительных мощностях. Система демонстрирует высокую производительность, функционируя всего на двух ядрах центрального процессора. Hugging Face - Blog · Инференс и железо Как асинхронность ускоряет обработку запросов в ИИ-агентах Исследователи из Hugging Face представили новый подход к обработке запросов в ИИ-моделях — асинхронный континуальный батчинг. Этот метод позволяет значительно ускорить обработку запросов, особенно в сценариях с высокой нагрузкой, что критически важно для ИИ-агентов, работающих в реальном времени. Hugging Face - Blog · Инфраструктура для агентов Hugging Face представила протокол для поиска ресурсов ИИ-агентами Hugging Face анонсировала систему Agentic Resource Discovery, предназначенную для автоматизации поиска и использования внешних инструментов и данных автономными агентами. Решение позволяет агентам самостоятельно находить необходимые API, наборы данных и модели в репозиториях, интерпретируя их функциональность без предварительной жесткой настройки со стороны разработчика. arXiv · Машинное обучение Применение машинного обучения для сопоставления астрономических данных Исследователи представили новый метод автоматизированного сопоставления данных из рентгеновского каталога Chandra (CSC v2.1) и оптического каталога Gaia (DR3). Традиционные подходы к поиску соответствий между объектами в космосе часто ограничиваются анализом их пространственного положения, что приводит к ошибкам при наличии нескольких кандидатов в одной области неба. Новый алгоритм учитывает дополнительные характеристики источников, включая их звездные величины, спектральные цвета и расстояния до объектов. Hacker News · Данные и инжиниринг Polyvia: инструмент для мультимодального поиска по большим массивам документов Представлен проект Polyvia, ориентированный на работу с крупными базами неструктурированных данных. Система позволяет выполнять мультимодальный поиск по архивам, насчитывающим более 100 тысяч файлов. Инструмент предназначен для извлечения информации из документов различных форматов, объединяя текстовые и визуальные данные в единый индекс для последующих запросов. Hacker News · Инференс и железо Реализация архитектурных подходов Anthropic Glasswing для локального запуска Исследователи представили метод воспроизведения функциональных особенностей архитектуры Glasswing от Anthropic в локальной среде. Основной акцент сделан на оптимизации процесса инференса, позволяющей достичь сопоставимых результатов без использования проприетарных облачных API. Техническое решение опирается на адаптацию весов моделей с открытым исходным кодом, что дает возможность запускать сложные агентные системы на потребительском оборудовании. The latest research from Google · Данные и инжиниринг Google представила алгоритм линейного эластичного кэширования для облачных систем Исследователи Google разработали алгоритм линейного эластичного кэширования, оптимизирующий распределение ресурсов в облачных инфраструктурах. Новый подход позволяет динамически адаптировать размер кэша к текущей нагрузке, минимизируя затраты на хранение и повышая производительность систем обработки данных. Метод решает проблему неэффективного использования памяти при резких колебаниях трафика, обеспечивая предсказуемую экономическую эффективность облачных вычислений. Hacker News · Машинное обучение Сжатие данных с помощью переобученного трансформера Исследователи продемонстрировали необычный метод сжатия данных, используя архитектуру трансформера. В ходе эксперимента модель объемом 900 КБ была целенаправленно переобучена (overfitted) на конкретном наборе данных — CSV-файле размером 100 МБ. В результате удалось достичь высокой степени компрессии, сократив исходный объем информации до 7 МБ.

← Все материалы