Разработчики представили ProteinTensor — специализированный формат данных, оптимизированный для хранения и обработки структур белков в задачах машинного обучения. Решение призвано заменить стандартные подходы, обеспечивая высокую скорость чтения и эффективное сжатие данных, аналогично тому, как формат Parquet используется для аналитических таблиц в больших данных, что критически важно для обучения сложных биологических моделей.
Работа с трехмерными структурами белков требует обработки огромных массивов данных, где традиционные форматы вроде PDB или CIF часто становятся «узким местом» из-за избыточности и низкой скорости доступа. ProteinTensor решает эту проблему за счет тензорной структуры, которая позволяет напрямую загружать данные в GPU-память, минуя длительные этапы парсинга и преобразования форматов.
Инструментарий интегрирован в экосистему HelixDB и ориентирован на исследователей, работающих с глубоким обучением в биоинформатике. Использование формата позволяет значительно сократить время подготовки датасетов для обучения нейросетей, предсказывающих фолдинг белков или взаимодействие молекул, делая пайплайны более масштабируемыми при работе с терабайтами данных.
Ключевые факты
- ProteinTensor спроектирован как аналог Parquet, адаптированный под специфику тензорных данных в биологических исследованиях.
- Формат обеспечивает прямую интеграцию с GPU, минимизируя накладные расходы на ввод-вывод при обучении моделей.
- Решение является частью проекта HelixDB, направленного на создание специализированных баз данных для структурной биологии.
- Основная цель разработки — ускорение обучения нейросетей за счет оптимизации хранения и доступа к данным о пространственном расположении атомов в белках.