Исследователи провели систематический анализ того, как химические языковые модели (CLM) кодируют молекулярные структуры при работе с форматом SMILES. Изучив восемь предобученных и шесть случайных моделей, авторы оценили способность нейросетей распознавать 78 химических подструктур. Работа проясняет влияние этапов предобучения и дообучения на формирование «химического понимания» у моделей, что критически важно для задач молекулярного дизайна и разработки новых материалов.

В ходе эксперимента сравнивались модели с различной архитектурой и степенью подготовки. Основной фокус был сделан на выявлении того, какие именно химические признаки усваиваются на этапе обучения на больших корпусах данных, а какие приобретаются в процессе узкоспециализированной настройки. Результаты показывают, что даже при использовании линейных представлений молекул, модели способны формировать внутренние репрезентации, соответствующие реальным химическим свойствам и структурным фрагментам.

Авторы также проанализировали, как дообучение на специфических химических датасетах меняет внутренние представления моделей. Это исследование помогает лучше понять ограничения текущих подходов к генерации молекул и указывает на необходимость более глубокой интерпретации того, как именно алгоритмы машинного обучения «видят» химические связи и функциональные группы, что напрямую влияет на точность предсказаний в фармацевтике и химии материалов.

Ключевые факты

  • Протестировано 8 предобученных и 6 случайно инициализированных моделей для сравнения качества представлений.
  • Проанализировано распознавание 78 различных молекулярных подструктур в рамках систематического тестирования.
  • Использован формат SMILES как основной метод линейного представления химических соединений для обучения моделей.
  • Исследовано влияние дообучения на изменение внутренней структуры знаний модели о химических объектах.