数据驱动

查看源文件

数据驱动的方法主要基于已有的各种物理、化学、生物数据,应用机器学习方法,实现分子学习任务。

数据驱动方法的发展是数据积累以及AI技术进步两方面综合促进的结果。随着蛋白、DNA、RNA等生物大分子序列、结构数据库,小分子结构、性质数据库,分子模拟等数据的不断扩增,应用一种或多种数据,可以训练AI模型学习其中的表示、性质、关联性等,以实现下游任务。

近年来,深度学习技术蓬勃发展,CNN、Transformer及其衍生架构、图神经网络等AI算法,以及GAN、VAE等多种AI模型被广泛应用于预训练模型、结构预测、性质预测、分子设计或生成等多种分子学习任务中。

其中,预训练模型往往基于海量大小分子序列或图表示,构建可迁移性较强的中、大型模型,这些模型可以通过微调适应多种下游任务:

  1. 分子结构预测主要关注从序列、分子式等出发的三维结构或构象预测,包括蛋白结构预测,小分子构象预测,分子相互作用构象和结合界面预测等,AlphaFold2为该领域具有代表性的工作;

  2. 分子性质预测更多关注基于已有数据由模型直接获得特定的分子特性,如小分子可成药性、水溶性、蛋白稳定性、活性等,除直接设计和训练AI模型外,往往可以通过预训练模型的微调实现;

  3. 分子设计则主要产生符合特定分布或条件的大小分子的序列或结构式等表示。