行业洞察 | 人工智能预测出“蛋白质宇宙”

业界 | 2022-10-27 19:38:35
时间:2022-10-27 19:38:35   /   来源: 出新研究微信号      /   点击数:()

AI预测出几乎所有已知蛋白质结构,有望加快新药研发。

DeepMind的研究人员汇集了来自结构生物学,物理学和机器学习领域的专家,应用尖端技术仅根据其基因序列预测蛋白质的3D结构。


(资料图片)

而最近DeepMind公司与欧洲生物信息研究所的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。

AlphaFold工具已经确定了大约2亿种蛋白质的结构,这些蛋白质来自地球上几乎所有已知的生物体。该研究发布于《Nature》。

作者:Kiara Cuter|

编译:刘唐诗 |

蛋白质结构有什么大不了的?

“蛋白质是维持生命所必需的大而复杂的分子。我们身体执行的几乎每一项功能——收缩肌肉、感知光或将食物转化为能量——都可以追溯到一种或多种蛋白质以及它们如何移动和变化。“

蛋白质的功能完全取决于其形式(3D结构)。以抗体蛋白为例,这些蛋白质可以在我们的免疫系统中找到,它们是“Y形”的,其功能类似于钩子。通过锁定病毒和细菌,抗体蛋白可以检测并标记恶性微生物以进行灭绝。可能还有人听说过CRISPR和Cas9蛋白,它们的作用就像剪刀一样剪切和粘贴DNA。

我们已经在蛋白质方面做了很多工作,但纯粹从蛋白质的基因序列中找出蛋白质的3D形状是科学家们几十年来一直试图带头的任务。

挑战在于DNA仅包含有关蛋白质构建块序列的信息,称为氨基酸残基,这些氨基酸残基形成长链。预测这些链将如何折叠成蛋白质的复杂3D结构就是所谓的“蛋白质折叠问题”。

在较大的蛋白质中,计算氨基酸相互作用以产生可能的结构的方式将是一项几乎不可能完成的任务,这需要太多时间。

然而从现在开始,确定几乎所有科学已知的蛋白质的3D形状将像使用搜索引擎一样简单。

研究人员已经使用AlphaFold(革命性的人工智能(AI)网络)来预测来自100万个物种的约2亿种蛋白质的结构,几乎涵盖了地球上所有已知的蛋白质。从本质上讲,它涵盖了整个蛋白质世界。

蛋白质的3D形状或结构决定了它在细胞中的功能。大多数药物都是使用结构信息设计的,准确的地图通常是发现蛋白质如何工作的第一步。

伦敦大学学院的计算生物学家使用AlphaFold数据库来鉴定新的蛋白质家族,她评价说研究人员正在为这个巨大宝库的释放做好准备。

这对我们意味着什么?

预测蛋白质形状的能力对科学家很有用,因为它对于了解其在体内的作用以及诊断和治疗被认为由错误折叠的蛋白质引起的疾病至关重要,例如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化。

这意味着获得有关蛋白质形状及其运作方式的知识在药物发现中开辟了新的潜力。

这使我们能够获得新的见解,从而提高我们对身体及其工作原理的理解。

这将使科学家能够更有效地创造新的、更有效的疾病治疗方法。

这最终可以改善全球数百万患者的生活质量。

科学家们已经能够使用各种实验技术在实验室中确定蛋白质的形状,但每种方法都依赖于大量的试验和错误,并且每个结构的成本要花费数万美元。

这正是研究人员转向人工智能方法来破译困难蛋白质的原因。

什么是神经网络?

神经网络是一组算法(由计算机运行的过程),它们松散地以人脑为模型。这些网络旨在识别模式。他们识别的模式是数字的,包含在向量中,所有现实世界的数据,无论是图像,声音,文本还是时间序列,都必须被翻译成向量。

神经网络帮助我们聚类和分类。您可以将它们视为存储和管理的数据之上的聚类和分类图层。它们有助于根据示例输入之间的相似性对未标记的数据进行分组,并且在您为它们提供标记数据集后对数据进行排序/分类(例如,一个带有“猫”字样的框,其中包含一些猫的图片)。

分类用法示例:狗+猫

这对于在大型数据集中查找模式非常有用。基因组学领域的数据已经变得非常丰富。这意味着,在过去几年中,基于基因组数据的深度学习方法来解决我们的预测问题已经变得越来越流行,这已经不是什么大相径庭的事情了。

深度神经网络(顾名思义)比普通神经网络具有更大的深度。也就是说,在模式识别的多步骤过程中,数据通过的节点层数量增加。我们可以将这些节点层设想为水过滤系统中的不同步骤,其中每个步骤都旨在筛选特定类型的沉积物。对于 DNN,此沉积物是基于前一个图层的输出的一组独特特征。

越深入神经网络,节点可以识别的特征就越复杂,因为它们包含了前一层的特征。

AlphaFold如何使用 DNN?

为了创建蛋白质的3D表示。深度思维训练了两个神经网络。一个网络预测两件事:

? 氨基酸对之间的距离

? 连接这些氨基酸的化学键之间的角度

这些将用于估计氨基酸对是否彼此靠近。

另一个神经网络被训练来预测蛋白质中每对残基之间的可能距离(氨基酸残基是氨基酸的一部分,使其与其他所有残基不同)。

“未折叠”蛋白片

然后将这些概率组合成一个分数,用于估计所提出的蛋白质结构的准确性。训练了一个单独的神经网络,该网络一致地使用所有距离来估计所提出的结构与正确答案的接近程度。

然后使用这些评分函数来搜索蛋白质数据,以找到与AlphaFold预测相匹配的结构。

重要的是要注意这种方法可以与结构生物学中常用的技术进行比较,其中蛋白质结构的片段被新的蛋白质片段反复替换。DeepMind使用生成神经网络发明了新的片段,这些片段在结构中进行了测试,以提高所提出的蛋白质结构的分数——本质上是为了更接近结构可能是什么。

第二种方法试图通过一种名为梯度下降的数学技术来达到更高的分数,其中进行小的,渐进的改进以达到局部/全局最优值(在这种情况下是理想的分数)。

该技术应用于整个蛋白质链,而不是组装前必须单独折叠的片段,从而降低了预测过程的复杂性。

未来会怎样?

AlphaFold作为一个整体真实地代表了机器学习系统如何整合各种信息来源,以帮助科学家快速为复杂问题提出创造性的解决方案。

人工智能在科学研究中的应用有可能支持比以往更大的社会影响。它将使我们能够理解和探索新材料和新技术的使用,同时深入研究旧结构(如蛋白质的功能)。药物发现和医学研究也将受益于这些新的人工智能驱动的科学技术。

对蛋白质折叠的理解也将有助于蛋白质设计,这可以释放出巨大的好处。例如,可生物降解酶的进步 - 可以通过蛋白质设计来实现 - 可以帮助管理塑料和石油等污染物,帮助我们以对环境更友好的方式分解废物。

多伦多一家名为Genecis的生物技术初创公司目前正在使用细菌来消化食物垃圾,并用它来在其微小的微生物肠道中形成可生物降解的塑料。这是两个世界问题合二为一,他们的下一步是快速设计细菌,将有机废物转化为高级化学品。

虽然仍然存在许多问题,但似乎对蛋白质如何工作的理解将成为我们解决地球面临的最大问题的基石——从确定疾病发生的原因以及如何治疗疾病,到创造可以消除塑料废物的酶以防止对环境造成有毒威胁。

归根结底,这些类型的研究突破将使我们的人口过上更有用和更充实的生活。我们完全有理由相信人工智能会加速我们到达他们。

延伸阅读

大量采购与疫情双重压力加速医药数字化转型,医药企业开始追求有限的资源投入以最大限度提升营销效果,医药营销数字化已经来到了效果为王的阶段。其中,大型跨国医药企业与创新型医药企业在现阶段数字化转型需求最为迫切。

疫情后主数据管理系统及线上医生运营平台这两个医药营销数字化工具受到企业的欢迎。

医药营销数字化发展的五大特征,分别为

(1)国内外医药企业营销模式和组织架构差异大,企业需要更加灵活的数字化解决方案;

(2)跨国医药企业与本土创新药企业挑选医药营销数字化供应商的标准差异大;

(3)跨系统间医药数据清洗难度大,企业需要灵活智能的数据管理系统;

(4)医药企业内部培养相关团队周期长;

(5)团队磨合成本高以及医药企业偏好使用设计简洁且产品功能丰富的营销数字化产品。

未来,随着医药企业数字化转型的深入,营销数字化的市场规模将迎来快速增长,其中聚焦医药领域的本土医药营销数字化企业有望占领更多的市场份额。

本文提供的信息仅用于一般指导和信息目的,本文的内容在任何情况下均不应被视为投资、业务、法律或税务建议。

本文首发于微信公众号:出新研究。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

标签:

最近更新