Hacker News · 02.07.2026 ·Машинное обучение

ProteinTensor: новый формат данных для ML в биологии

Разработчики представили ProteinTensor — специализированный формат данных, оптимизированный для хранения и обработки структур белков в задачах машинного обучения. Решение призвано заменить стандартные подходы, обеспечивая высокую скорость чтения и эффективное сжатие данных, аналогично тому, как формат Parquet используется для аналитических таблиц в больших данных, что критически важно для обучения сложных биологических моделей.

Работа с трехмерными структурами белков требует обработки огромных массивов данных, где традиционные форматы вроде PDB или CIF часто становятся «узким местом» из-за избыточности и низкой скорости доступа. ProteinTensor решает эту проблему за счет тензорной структуры, которая позволяет напрямую загружать данные в GPU-память, минуя длительные этапы парсинга и преобразования форматов.

Инструментарий интегрирован в экосистему HelixDB и ориентирован на исследователей, работающих с глубоким обучением в биоинформатике. Использование формата позволяет значительно сократить время подготовки датасетов для обучения нейросетей, предсказывающих фолдинг белков или взаимодействие молекул, делая пайплайны более масштабируемыми при работе с терабайтами данных.

Ключевые факты

ProteinTensor спроектирован как аналог Parquet, адаптированный под специфику тензорных данных в биологических исследованиях.
Формат обеспечивает прямую интеграцию с GPU, минимизируя накладные расходы на ввод-вывод при обучении моделей.
Решение является частью проекта HelixDB, направленного на создание специализированных баз данных для структурной биологии.
Основная цель разработки — ускорение обучения нейросетей за счет оптимизации хранения и доступа к данным о пространственном расположении атомов в белках.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Данные и инжиниринг TensorTree: новый подход к организации векторных баз данных В экосистеме инструментов для работы с векторными данными появился проект TensorTree, предлагающий альтернативный метод индексации и поиска. В отличие от традиционных подходов, основанных на графах или плоских списках, данная реализация фокусируется на оптимизации структуры хранения для повышения скорости выполнения запросов при работе с высокоразмерными эмбеддингами. arXiv · Машинное обучение Tensorion: новый метод оптимизации с учетом тензорной структуры весов Исследователи представили Tensorion — метод оптимизации, расширяющий возможности алгоритма Muon для обучения нейронных сетей. В отличие от стандартных оптимизаторов вроде Adam, которые воспринимают параметры как плоские векторы, Tensorion учитывает многолинейную структуру весовых матриц. Это позволяет эффективнее использовать геометрию пространства параметров, ускоряя сходимость и повышая качество обучения современных архитектур. Hacker News · Инфраструктура для агентов Deltatensors: новый способ хранения дообученных весов моделей через сжатые дельты Библиотека Deltatensors предлагает оптимизированный подход к хранению и распространению дообученных весов нейросетей. Вместо сохранения полных копий модели, инструмент вычисляет и сжимает разницу (дельты) между базовыми весами и весами после fine-tuning. Это позволяет значительно сократить объем дискового пространства, необходимого для версионирования и обмена специализированными моделями в агентных системах и пайплайнах разработки. Lobsters · Инфраструктура для агентов Event Tensor: новый подход к компиляции динамических мегакернелов Исследователи представили концепцию Event Tensor — унифицированную абстракцию, предназначенную для оптимизации выполнения динамических вычислительных графов в современных нейронных сетях. Метод позволяет эффективно компилировать так называемые «мегакернелы», объединяя множество мелких операций в единые блоки для исполнения на GPU. Это решает проблему высоких накладных расходов при запуске большого количества атомарных операций, характерных для современных архитектур с динамическим поведением. OpenAI News · ИИ в бизнесе OpenAI представила Genebench-Pro для оптимизации биотехнологических исследований OpenAI выпустила Genebench-Pro — специализированный инструмент для анализа генетических данных, предназначенный для ускорения разработки лекарств и биологических исследований. Платформа позволяет автоматизировать обработку сложных последовательностей, сокращая время на первичный анализ данных с недель до нескольких часов. Решение уже внедряется в работу ведущих фармацевтических компаний для поиска новых терапевтических мишеней. Hacker News · Оценка и бенчмарки OpenAI представила GeneBench-Pro для оценки моделей в биологических исследованиях OpenAI выпустила GeneBench-Pro — специализированный набор инструментов для оценки производительности ИИ-моделей в задачах молекулярной биологии и генетики. Платформа позволяет стандартизировать тестирование нейросетей, анализирующих геномные данные, предсказывающих структуру белков и моделирующих взаимодействие лекарственных препаратов, что критически важно для развития высокоточных медицинских технологий и ускорения разработки новых терапевтических решений на базе машинного обучения. Engineering at Meta · Данные и инжиниринг Инфраструктура хранения данных для обучения масштабных ИИ-моделей от Meta Meta (признана экстремистской организацией, деятельность запрещена в РФ) представила архитектурный подход к организации систем хранения данных, необходимых для обучения моделей нового поколения. Компания оптимизировала пайплайны для работы с экспоненциально растущими датасетами, сократив время доступа к информации и снизив вычислительные издержки, что позволило ускорить цикл выпуска передовых моделей с нескольких месяцев до нескольких недель. Hacker News · Инфраструктура для агентов Nvidia представила BioNeMo Agent Toolkit для ускорения научных исследований Nvidia выпустила BioNeMo Agent Toolkit — специализированный набор инструментов для создания ИИ-агентов, предназначенных для автоматизации процессов в биологии и химии. Платформа позволяет исследователям интегрировать генеративные модели в рабочие процессы по разработке лекарств, обеспечивая автономный поиск молекулярных структур и анализ данных, что значительно сокращает время на проведение лабораторных экспериментов и моделирование сложных биологических систем. NVIDIA Technical Blog · Инференс и железо Квантование моделей для ускоренного инференса на NVIDIA TensorRT NVIDIA представила новый подход к квантованию моделей, позволяющий превращать FP8-чекпоинты в высокопроизводительные инференс-движки с использованием TensorRT. Этот метод оптимизирует модели для работы на графических процессорах, что особенно важно для разработчиков ИИ-агентов, где скорость и эффективность вычислений играют ключевую роль. MarkTechPost · Инфраструктура для агентов NVIDIA представила BioNeMo Agent Toolkit для интеграции биомолекулярных моделей в ИИ-агенты NVIDIA выпустила BioNeMo Agent Toolkit — инструментарий с открытым исходным кодом, превращающий специализированные биомолекулярные модели в стандартизированные навыки для ИИ-агентов. Решение позволяет агентам автоматически выбирать, запускать и интерпретировать результаты работы сложных научных моделей, таких как OpenFold3 или DiffDock, что радикально повышает эффективность автоматизированных исследований в области разработки лекарственных препаратов и молекулярной биологии.

← Все материалы