模型学习单个氨基酸如何决定蛋白质功能

来自麻省理工学院研究人员的机器学习模型计算地分解了氨基酸链段如何决定蛋白质的功能,这可以帮助研究人员设计和测试用于药物开发或生物研究的新蛋白质。

蛋白质是氨基酸的线性链,通过肽键连接,折叠成极其复杂的三维结构,这取决于链内的序列和物理相互作用。反过来,这种结构决定了蛋白质的生物学功能。因此,了解蛋白质的三维结构对于预测蛋白质如何对某些药物产生反应是有价值的。

然而,尽管经过数十年的研究和多种成像技术的发展,我们只知道很少一部分可能的蛋白质结构 - 数以万计的成千上万。研究人员开始使用机器学习模型根据氨基酸序列预测蛋白质结构,这可以发现新的蛋白质结构。但这具有挑战性,因为不同的氨基酸序列可以形成非常相似的结构。并且没有很多结构可以训练模型。

在5月份的国际学习代表会议上发表的一篇论文中,麻省理工学院的研究人员开发了一种方法,用于“学习”蛋白质序列中每个氨基酸位置的易于计算的表示,最初使用3-D蛋白质结构作为培训指南。然后,研究人员可以使用这些表示作为输入,帮助机器学习模型预测单个氨基酸片段的功能 - 而无需再次需要蛋白质结构的任何数据。

将来,该模型可用于改进蛋白质工程,为研究人员提供更好地归零和修饰特定氨基酸片段的机会。该模型甚至可能引导研究人员完全脱离蛋白质结构预测。

“我希望将结构边缘化,”第一作者Tristan Bepler说,他是计算机科学与人工智能实验室(CSAIL)计算与生物学研究组的研究生。“我们想知道蛋白质的作用,知道结构对此非常重要。但是,我们能预测蛋白质的功能只能给出它的氨基酸序列吗?动机是远离专门预测结构,转向[发现]氨基酸序列如何与功能相关。“

加入Bepler的是共同作者Bonnie Berger,麻省理工学院Simons数学教授,电气工程和计算机科学系的联合教员,以及计算和生物学组的负责人。

从结构中学习

研究人员将预测的蛋白质结构信息直接编码为表示,而不是像传统模型那样直接预测结构。为此,他们使用已知的蛋白质结构相似性来监督他们的模型,因为该模型学习了特定氨基酸的功能。

他们根据蛋白质结构分类(SCOP)数据库对大约22,000种蛋白质进行了模型训练,该数据库包含数千种蛋白质,这些蛋白质通过结构和氨基酸序列的相似性组织成类别。对于每对蛋白质,他们根据他们的SCOP类计算出真实的相似性得分,这意味着它们在结构上的接近程度。

然后研究人员给他们的模型随机配对的蛋白质结构及其氨基酸序列,它们被编码器转换成称为嵌入的数字表示。在自然语言处理中,嵌入基本上是以对应于句子中的字母或单词的方式组合的数百个数字的表。两个嵌入越相似,字母或单词在句子中出现的可能性就越大。

在研究人员的工作中,每对嵌入包含有关每个氨基酸序列与另一个氨基酸序列有多相似的信息。该模型对齐两个嵌入并计算相似性得分,然后预测其三维结构的相似程度。然后,模型将其预测的相似性得分与其结构的实际SCOP相似性得分进行比较,并将反馈信号发送给编码器。

同时,该模型预测每个嵌入的“接触图”,基本上表示每个氨基酸与蛋白质预测的3-D结构中的所有其他氨基酸相距多远 - 基本上,它们是否接触?该模型还将其预测的接触图与来自SCOP的已知接触图进行比较,并将反馈信号发送到编码器。这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步更新每种氨基酸的功能。

基本上,研究人员通过要求它预测配对序列嵌入是否将共享相似的SCOP蛋白结构来训练他们的模型。如果模型的预测分数接近真实分数,它就知道它在正确的轨道上;如果没有,它会调整。

蛋白质设计

最后,对于一个输入的氨基酸链,该模型将为3-D结构中的每个氨基酸位置产生一个数值表示或嵌入。机器学习模型然后可以使用这些序列嵌入来基于其预测的3-D结构“背景” - 其位置和与其他氨基酸的接触来准确地预测每个氨基酸的功能。

例如,研究人员使用该模型预测哪些片段(如果有的话)通过细胞膜。鉴于只有一个氨基酸序列,研究人员的模型比最先进的模型更准确地预测所有跨膜和非跨膜片段。

接下来,研究人员的目标是将该模型应用于更多预测任务,例如确定哪些序列片段与小分子结合,这对于药物开发至关重要。他们还致力于将该模型用于蛋白质设计。使用它们的序列嵌入,它们可以预测蛋白质会发出什么颜色的波长。

“我们的模型允许我们将信息从已知的蛋白质结构转移到具有未知结构的序列。使用我们的嵌入作为特征,我们可以更好地预测功能并实现更有效的数据驱动蛋白质设计,”Bepler说。“在很高的层面上,这种类型的蛋白质工程是目标。”

Berger补充说:“我们的机器学习模型因此使我们能够学习蛋白质折叠的'语言' - 最初的'圣杯'问题之一 - 来自相对较少的已知结构。”

论文:“使用结构信息学习蛋白质序列嵌入。”