Исследователи провели систематический анализ того, как химические языковые модели (CLM) кодируют молекулярные структуры при работе с форматом SMILES. Изучив восемь предобученных и шесть случайных моделей, авторы оценили способность нейросетей распознавать 78 химических подструктур. Работа проясняет влияние этапов предобучения и дообучения на формирование «химического понимания» у моделей, что критически важно для задач молекулярного дизайна и разработки новых материалов.
В ходе эксперимента сравнивались модели с различной архитектурой и степенью подготовки. Основной фокус был сделан на выявлении того, какие именно химические признаки усваиваются на этапе обучения на больших корпусах данных, а какие приобретаются в процессе узкоспециализированной настройки. Результаты показывают, что даже при использовании линейных представлений молекул, модели способны формировать внутренние репрезентации, соответствующие реальным химическим свойствам и структурным фрагментам.
Авторы также проанализировали, как дообучение на специфических химических датасетах меняет внутренние представления моделей. Это исследование помогает лучше понять ограничения текущих подходов к генерации молекул и указывает на необходимость более глубокой интерпретации того, как именно алгоритмы машинного обучения «видят» химические связи и функциональные группы, что напрямую влияет на точность предсказаний в фармацевтике и химии материалов.
Ключевые факты
- Протестировано 8 предобученных и 6 случайно инициализированных моделей для сравнения качества представлений.
- Проанализировано распознавание 78 различных молекулярных подструктур в рамках систематического тестирования.
- Использован формат SMILES как основной метод линейного представления химических соединений для обучения моделей.
- Исследовано влияние дообучения на изменение внутренней структуры знаний модели о химических объектах.