解码人工智能的黑匣子——科学家发现意想不到的结果

解码人工智能的黑匣子——科学家发现意想不到的结果

波恩大学的研究人员研究了机器学习在药物研究中的应用的内部工作原理。
人工智能 (AI) 一直在迅速发展,但其内部运作往往仍然模糊不清,其特点是“黑匣子”性质,得出结论的过程不可见。然而,波恩大学的化学信息学专家Jürgen Bajorath教授和他的团队取得了重大突破。他们设计了一种技术,揭示了药物研究中使用的某些人工智能系统的运行机制。

令人惊讶的是,他们的研究结果表明,这些人工智能模型主要依赖于回忆现有数据,而不是学习特定的化学相互作用来预测药物的有效性。他们的研究结果最近发表在《自然机器智能》杂志上。

哪种药物分子最有效?研究人员正在狂热地寻找有效的活性物质来对抗疾病。这些化合物通常对接在蛋白质上,蛋白质通常是触发特定生理作用链的酶或受体。

 

在某些情况下,某些分子还旨在阻断体内的不良反应,例如过度的炎症反应。鉴于大量可用的化合物,乍一看,这项研究就像大海捞针一样。因此,药物发现试图使用科学模型来预测哪些分子最能与各自的靶蛋白对接并牢固结合。然后在实验研究中更详细地研究这些潜在的候选药物。

20240102161207893-image

蛋白质-配体相互作用图中边缘的相对比例 – 确定不同亲和子区域对六个 GNN 的预测。颜色编码条比较了使用 EdgeSHAPer 确定的每个预测的前 25 个边缘中蛋白质、配体和相互作用边缘的平均比例。图片来源:A. Mastropietro 和 J. Bajorath

自人工智能发展以来,药物发现研究也越来越多地使用机器学习应用程序。其中一种应用,“图神经网络”(GNN)为此类应用提供了多种机会之一。例如,它们适用于预测某种分子与靶蛋白结合的强度。为此,GNN模型使用表示蛋白质和化合物(配体)之间形成的复合物的图形进行训练。

图形通常由表示对象的节点和表示节点之间关系的边组成。在蛋白质-配体复合物的图表示中,边缘仅连接蛋白质或配体节点,分别表示它们的结构,或蛋白质和配体节点,分别表示特定的蛋白质-配体相互作用。

“GNN如何得出他们的预测就像一个我们无法瞥见的黑匣子,”Jürgen Bajorath教授说。来自波恩大学LIMES研究所,波恩-亚琛国际信息技术中心(B-IT)和波恩Lamarr机器学习与人工智能研究所的化学信息学研究人员与罗马Sapienza大学的同事一起详细分析了图神经网络是否真的学习蛋白质 – 配体相互作用,以预测活性物质与靶蛋白结合的强度。

人工智能应用程序如何工作?

研究人员使用他们专门开发的“EdgeSHAPer”方法和概念上不同的方法分析了总共六种不同的GNN架构进行比较。这些计算机程序“筛选”GNN是否学习化合物和蛋白质之间最重要的相互作用,从而预测配体的效力,正如研究人员所预期的那样,或者人工智能是否以其他方式得出预测。

“GNN非常依赖于它们所训练的数据,”该研究的第一作者,来自罗马Sapienza大学的博士候选人Andrea Mastropietro说,他在波恩的Bajorath教授小组进行了部分博士研究。

科学家们使用从蛋白质-配体复合物结构中提取的图表训练了六个GNN,其中化合物的作用方式和与其靶蛋白的结合强度已经从实验中已知。然后,在其他复合物上测试经过训练的GNN。随后的 EdgeSHAPer 分析使得了解 GNN 如何产生明显有希望的预测成为可能。

“如果GNN按照预期行事,它们需要学习化合物和靶蛋白之间的相互作用,并且预测应该通过优先考虑特定的相互作用来确定,”Bajorath教授解释说。然而,根据研究小组的分析,六个GNN基本上没有做到这一点。大多数GNNs只学会了一些蛋白质-药物相互作用,主要集中在配体上。Bajorath:“为了预测分子与靶蛋白的结合强度,模型主要’记住’它们在训练过程中遇到的化学相似分子及其结合数据,而不管靶蛋白如何。这些习得的化学相似性基本上决定了预测。

根据科学家的说法,这在很大程度上让人想起“聪明的汉斯效应”。这种效果指的是一匹显然可以数数的马。汉斯敲击蹄子的频率应该表明计算结果。然而,后来证明,这匹马根本无法计算,而是从同伴面部表情和手势的细微差别中推断出预期的结果。

这些发现对药物发现研究意味着什么?“GNN学习活性物质和蛋白质之间的化学相互作用通常是站不住脚的,”化学信息学科学家说。他们的预测在很大程度上被高估了,因为可以使用化学知识和更简单的方法进行同等质量的预测。然而,这项研究也为人工智能提供了机会。当测试化合物的效力增加时,两个GNN检查的模型显示出明显的趋势,即学习更多的相互作用。“这里值得仔细看看,”Bajorath说。也许这些GNN可以通过修改表示和训练技术在期望的方向上进一步改进。然而,通常应谨慎对待可以基于分子图学习物理量的假设。“人工智能不是黑魔法,”Bajorath说。

为人工智能的黑暗带来更多光明
事实上,他认为之前发布的 EdgeSHAPer 和其他专门开发的分析工具是揭示 AI 模型黑匣子的有前途的方法。他的团队目前的方法集中在GNN和新的“化学语言模型”上。

“开发解释复杂模型预测的方法是人工智能研究的一个重要领域。还有一些其他网络架构的方法,如语言模型,有助于更好地理解机器学习如何获得其结果,“Bajorath说。他预计,在拉玛研究所的“可解释人工智能”领域,令人兴奋的事情也将很快发生,他是该研究所的PI和生命科学人工智能主席。

 

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容