近日,北京大学计算机学院张铭教授团队联合华盛顿大学等团队,成功提出了生物活性基础模型ActFound,登上国际AI顶刊。在跨域生物活性预测、先导小分子优化、癌症药物反应上,ActFound表现出色。
小分子生物活性在药物研发中扮演着至关重要的角色。生物活性反映了小分子与生物系统中特定靶点(如蛋白质、受体或酶)相互作用并引起可测量的生物学反应的程度,是筛选潜在药物候选物、优化分子结构以及预测药物疗效和安全性的关键指标。
准确预测和评估生物活性不仅可以大幅缩短药物筛选时间、降低研发成本,还能帮助研究人员理解药物作用机制,从而加速新药开发进程,为患者带来更有效、更安全的治疗方案。
在生物活性预测领域,已有的基于物理的计算方法如自由能微扰(FEP)可以给出准确的预测,但是他们却面临着计算成本高昂的问题。
近年来,深度学习方法展现出巨大潜力,但面临着实验数据有限和不同实验测量的生物活性不兼容的问题。
以往研究者使用了迁移学习、多任务学习和元学习等先进机器学习技术,但是他们只在特定类型(例如Ki,Kd,IC50)和单位为摩尔浓度的生物活性数据上训练,使得模型难以泛化到具有从未见过的类型(例如EC50)或者单位(例如‘%’)的生物活性预测任务上。
为解决这一挑战,北京大学计算机学院张铭教授团队联合华盛顿大学助理教授王晟、博士后肖之屏和复旦大学教授徐盈辉等,提出了一个由ChEMBL数据库中160万个实验测量的生物活性数据训练而成的生物活性基础模型——ActFound。
目前,这项工作已登上国际顶尖AI期刊NatureMachineIntelligence(简称NMI,最新影响因子为18.8)。
ActFound的核心思想是采用成对学习方法,学习同一组实验中两个小分子之间的相对生物活性差异,从而避开不同实验之间的生物活性的不兼容问题。该模型还利用元学习技术,帮助模型在仅有少量数据的情况下提升预测准确度。
审稿人认为成对学习和元学习的组合不但成功解决了活性预测的核心问题,而且还对其他领域的发展有所启发。
在六个生物活性评测基准数据集上,ActFound展现出了准确的预测能力,以及在不同生物活性类型和分子骨架之间的强大泛化能力。
研究还表明,ActFound可以作为领先的基于物理的计算工具FEP+的替代方案,仅使用少量数据进行微调就能达到相当的性能。
为了验证ActFound模型的性能和实际价值,研究团队进行了一系列生物活性预测任务的实验。
首先,研究人员在六个不同的数据集上评估了ActFound的性能,ActFound在ChEMBL、BindingDB、FS-Mol、pQSAR-ChEMBL、Davis和Kiba上的表现优于所有九种对比方法,展示了其在几乎所有类型实验中的广泛适用性。
在跨域生物活性预测方面,ActFound同样超越了现有的最先进方法,证明了在不同类型的生物活性数据上良好的泛化能力。
其次,研究团队将ActFound与自由能微扰(FEP)计算工具进行了比较,以展示ActFound在先导小分子优化方面的实际价值。
实验结果表明,ActFound具有作为FEP+替代工具的潜力。
具体来说,Actfound在仅仅使用了平均4.8个分子进行微调的情况下,ActFound的效果超越了FEP+。且Actfound可以在一秒之内预测超过一万化合物的活性,然而FEP需要24-48个GPU小时才能计算一对分子的相对活性差值。
最后,研究人员展示了使用ActFound预训练的癌症药物反应预测模型的出色表现。
实验结果表明,使用ActFound初始化的癌症药物反应预测模型无需微调就具有出色的表现,进一步证明了ActFound的广泛应用潜力。
总的来说,这些实验结果展示了ActFound作为一个生物活性基础模型,不仅在各种生物活性预测任务中表现出色,还显示了在药物开发和发现的其他环节的应用前景。
这些发现为解决现有生物活性预测方法中的局限性提供了有效的解决方案,同时也为加速药物研发过程提供了新的可能性。