英国谢菲尔德大学吕海平小组NMI论文:基于双线性注意力网络预测药物-靶标相互作用

时间:2023-07-11 13:17:41   热度:37.1℃   作者:网络

图片

预测药物与靶点的相互作用是药物发现的核心环节之一。近年来,得益于大数据与算法方面的进步,该领域发展出了许多基于深度学习的药物-靶标相互作用预测算法。不同于其他类型的预测方法,此类方法主要基于蛋白一维序列和化合物一维SMILES或二维分子图进行模型的训练与预测,可以不受到蛋白结构信息或活性配体信息的限制。然而,这些深度学习预测算法也面临两项严峻的挑战:

  • 一是如何显式地建模和学习药物与靶点之间的局部相互作用,以提高预测性能和模型可解释性;
  • 二是如何优化在新颖药物-靶点预测场景中的模型泛化性能,以适应实际应用中不同分布的数据。

为此,来自英国谢菲尔德大学的吕海平教授小组提出了一种具有较好可解释性的新型药物-靶标相互作用预测算法DrugBAN。该算法使用双线性注意力机制关注药物与靶点之间成对的局部相互作用,同时使用条件域对抗网络(CDAN)来应对模型未曾见过的蛋白与药物数据,帮助其提高泛化能力。测试表明,DrugBAN在药物-靶标相互作用预测的各项指标上优于现有的其他五种先进算法。相关研究成果近期发表于Nature Machine Intelligence期刊上

DrugBAN模型的输入是药物分子图和蛋白质分子的序列,输出是药物-靶点相互作用的概率(-1)。在模型中有一个双线性注意力网络模块,它最初被用于解决视觉问答问题,能够比传统注意力网络更好捕捉多模态输入信息之间的交互。在DrugBAN模型中,该模块的作用是学习药物和蛋白质的局部相互作用。具体来说,它通过计算药物和蛋白质每一对子结构之间的相互作用强度,生成一个注意力图。并利用注意力图生成一种联合表示,用于预测药物-靶点相互作用的概率。这样就可以利用注意力图来可视化每个子结构对最终预测结果的贡献,从而提高模型的可解释性。此外,研究者还在模型中嵌入了一种名为CDANConditional Domain Adversarial Network)的域适应技术,它可以通过调整模型的内部表示,使得模型在不同数据集之间的分布差异最小化,从而更好应对跨域预测中训练数据和测试数据分布不同的挑战。

图片

1DrugBAN的算法架构示意

为了评估模型性能,研究者引入BindingDBBioSNAPHuman三种数据集进行模型的训练与测试,并比较DrugBAN与五种基线模型(SVMRFDeepConv-DTIGraphDTAMolTrans)在域内和跨域两种不同预测场景下的表现。在域内评估中,数据集按照7:1:2比例随机划分为训练集、验证集与测试集。该划分模式下测试数据与训练数据的分布基本相同,主要考验模型对数据的拟合能力。在跨域评估中,作者预先使用单链接算法对药物与靶点进行聚类,以使同一组内的药物或蛋白质彼此相似。然后选取60%的数据簇作为源域数据,剩余数据簇视为目标域数据,两类数据之间存在分布差异。随后,再从目标域数据中选取80%数据来训练模型的跨域能力,剩余20%的目标域数据作为最后的测试集,这种设置主要是评估模型的泛化能力。

结果方面,DrugBAN在域内评估中的三个基准数据集上均展现出最佳整体性能,超过其他五种基线模型。在跨域评估中,因为任务难度提升,所有模型的预测性能都显著下降,但DrugBAN仍然在整体上优于其他先进的基线模型。特别是嵌入CDAN技术后,DrugBANCDANBioSNAP数据集上的AUROCAUPRC指标分别比普通DrugBAN高出4.6%和16.9(-2)。这些结果共同显示了DrugBAN在预测准确性与稳健性方面的优势。

图片

2,各模型在跨域评估场景中的表现

为分析双线性注意力和CDAN模块对DrugBAN的影响,作者使用消融实验进行了探索。对于前者,作者对照设置单侧药物注意力、单侧蛋白质注意力和线性连接三种变体,结果表明双线性注意力是DTI预测中捕获相互作用信息的最有效方法,而不用注意力的线性连接办法效果最差。对于CDAN模块,作者设置了带有领域对抗神经网络(DANN)的DrugBANDANN和带有CDANMolTransCDAN两种变体。结果表明:在跨域预测方面,DrugBANCDAN仍然是预测性能最佳的算法架构。最后,作者还对模型的双线性注意力网络进行可视化展示(-3)。在药物分子方面,算法基本可以关注到能与蛋白发生相互作用的子结构,而在蛋白结构方面,算法则不一定能关注到配体结合口袋内的氨基酸残基,作者猜测原因可能是因为一维的蛋白序列表征方式还不足以让算法学习到足够的三维信息,期待蛋白结构三维表征办法的发展。

图片

3DrugBAN双线性注意力网络的可视化展示,黄色高亮部分为算法预测的药物与蛋白相互作用热点区域

【小结】本项工作提出一种名为DrugBAN的新型深度学习算法,用于预测药物-靶标相互作用。该算法采用双线性注意力网络框架捕捉药物与靶标之间的局部相互作用,同时引入域适应技术应对跨域预测场景。凭借其独特的架构,DrugBAN在三个基准数据集上均表现出最佳的整体性能,有望成为药物发现领域中的又一种有用工具。

参考文献

【1】Bai P, Miljković F, John B, et al. Interpretable bilinear attention network with domain adaptation improves drug–target prediction. Nature Machine Intelligence, 2023, 5(2): 126-136.

上一篇: JTV:脊髓损伤患者以小角度重新定位可缓...

下一篇: Ear Nose Throat J:神经...


 本站广告