2021-07-26
2021年7月22日,DeepMind和欧洲生物信息学研究所(EMBL-EBI)联合发布了AlphaFold预测的蛋白质结构数据库,该数据库将会对生命科学和生物医药领域产生什么深远影响呢?我们来看看英国皇家学会院士Stephen Cusack等人的最新评论。
Stephen Cusack, Sebastian Eustermann, Gerard Kleywegt, Jan Kosinski, Julia Mahamid, José Antonio Marquez, Christoph Müller, Thomas Schneider, Janet Thornton, Jessica Vamathevan, Sameer Velankar, Matthias Wilmanns
在最新一期的Nature论文中,DeepMind和EMBL-EBI合作发布了数据库AlphaFold DataBase (AlphaFold DB),向社会免费提供AlphaFold结构预测结果。初始的AlphaFold DB涵盖了属于人类以及其他20个重要物种的大多数具有较大价值的蛋白质, 包含超过35万个不同的蛋白结构,并最终将增加到约1.3亿个三维结构(约为目前PDB数据库的700倍)
未来的几个月里,AlphaFold DB将扩展到涵盖所有编码蛋白质的90%。这意味着对于UniProt数据库中的每一个蛋白序列,要么有一个实验确定的结构,要么有一个AlphaFold预测的结构,或者可以使用传统的结构预测技术根据PDB或AlphaFold DB中类似序列的模型来轻易地建立结构。这一发展代表了分子生物学的一个重要变化:几乎所有已知序列的蛋白质都将有一个高质量的三维模型可用。那么,AlphaFold DB将可能有哪些重要应用呢?我们来听听英国皇家学会院士Stephen Cusack等人的看法。
背景
多年以来,蛋白质结构一直是热门的研究话题,研究者使用核磁共振、X射线、冷冻电镜等一系列实验技术来检测和确定蛋白质结构。但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。
1972年,美国科学家Christian Anfinsen因“对核糖核酸酶的研究,特别是对其氨基酸序列与生物活性构象之间联系的研究”获得诺贝尔化学奖。在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列计算出其三维结构。
2020年11月30日,一条重磅消息引发了科技界所有人的关注:谷歌旗下人工智能技术公司DeepMind提出的深度学习算法「Alphafold」破解了出现五十年之久的蛋白质分子折叠(protein folding problem)问题。CASP14 组织者、年近七旬的UC Davis科学家Andriy Kryshtafovych在大会上感叹道,I wasn't sure that I would live long enough to see this(我活久见了)。
预测方法的当前局限性
尽管Alphafold取得了世人瞩目的进展,但其仍有局限性:
许多蛋白质的功能是与其他蛋白质、核酸(DNA或RNA)或配体形成复合体。AlphaFold目前不能预测蛋白质-蛋白质或蛋白质-DNA/RNA/配体复合物的三维结构。某些情况下,单链预测的结果可能对应于复合物中采用的结构。大多数情况下,周围分子的背景缺失会导致复合物预测结果不可信。
蛋白质是一个动态系统,根据其环境或功能周期内的状态而采取不同的结构。当一个蛋白质已知有多种构象时,AlphaFold通常只会预测其中一种。这使得蛋白质构象的动态预测仍然存在问题,而这对理解生物功能至关重要,这仍将是一个非常活跃的研究领域。
对于那些内在无序或无结构的区域,AlphaFold的预测可信度很低,预测的结构会有一个延伸的、带状的外观。AlphaFold可以作为识别这类区域的工具,但预测结果并不说明不同构象的相对可能性(用生物物理学术语来说:它不是玻尔兹曼分布的一个样本)。
AlphaFold还没有经过训练或验证来预测突变的影响。特别是,它不能捕捉到破坏蛋白质稳定性的点突变的影响。
配体不包括在结构中,因此AlphaFold不能对实验结构中的非蛋白质成分(如金属、配体,包括药物类分子、离子、碳水化合物和其他翻译后修饰)进行预测。
与实验测得的结构一样,预测的结构可以提供蛋白质功能的假设,但这种假设必须通过进一步的实验来检验。
对科学界的影响
AlphaFold DB中的蛋白质结构预测将对分子结构生物学研究产生直接影响,从更长远的角度来看,将对科学、医学和最终的经济产生重大影响。这一变化将促进许多新领域的研究。
结构生物学研究的机会
结构生物学是分子生物学的一个分支,它利用三维结构信息(最好是原子分辨率)来回答生物学问题,例如解释蛋白质或复合物的功能。为此,结构生物学家通常需要确定同一蛋白质的多个结构,例如与配体、某些突变,或与其他大分子(包括其他蛋白质或核酸)的复合物。
加速结构研究
大规模地提供预测的三维模型可能会大大改变结构生物学研究的格局,某些情况下会加速结构分析。目前,PDB包含超过18万个条目,涵盖约5.5万个独特的蛋白质。PDB对蛋白质世界的有限覆盖(UniProt中约2.2亿个序列或MGnify中约6.25亿个序列)是许多生物学领域的一个障碍,包括结构生物学本身。
预测模型可以强有力的帮助实验性的从头结构测定,即使是低质量或低分辨率的数据集。短期内,它将有助于帮助那些几年前就已经收集了实验数据,但至今仍无法解析的结构。这包括EMDB中超过5700张冷冻电镜图,这些图以前很难解析。
虽然冷冻电镜是确定大型和灵活的蛋白质复合体和 "分子机器 "结构的主要方法之一。但是主要的和重要的复合物将不会被完全解析到高分辨率。预测模型可以帮助从低分辨率区域得到高质量的结构。
填补蛋白质复合物的缺失
AlphaFold DB将使研究复杂的生物系统成为可能,因为这些系统没有高分辨率或高质量的实验结构数据,同时,AlphaFold DB可以为大分子机器提供可能的机制解释。
在没有蛋白质复合物的实验数据的情况下,可以用AlphaFold模型作为补充,产生有关结合点或相互作用表面的假设,然后设计实验,例如找出哪些配体(或配体的片段)可以结合。
为蛋白质动力学模拟提供3D模型
高质量的蛋白质三维模型是蛋白质动力学分析的前提。动力学分析可以帮助我们了解酶的催化机制,或结合配体后的构象变化。
对大分子复合物进行建模
冷冻电镜的快速发展使得利用原位实验研究生物环境中的大分子复合物成为可能。预测的模型可能有助于阐明在细胞内各种情况下与大分子复合物相互作用的蛋白质的身份。
虽然AlphaFold DB总体上将加速结构生物学研究,但它也可能导致研究重点从最初的结构测定转移到对蛋白质结构的更多机制和功能方面的研究。同时,这也会导致对专门用于结构测定的大规模结构生物学基础设施进行客观的重新评估。
结构预测的未来挑战
几十年来,从蛋白质的序列中准确预测其三维原子结构(或折叠)一直是生物学的 "圣杯",全球都在为之付出大量的研究努力。AlphaFold在CASP14中的成功构成了这个领域的一个变化。
迈向预测的新挑战
对蛋白质折叠问题的解决,可能会使结构预测研究者的重点转向新的方向,如预测复合物的结构,预测药物与蛋白质的相互作用。深度学习技术可能成为未来发展的主流,应用于这些新挑战。其中一个挑战是研究蛋白质中的内在无序和移动区域,这些区域在功能上很重要,在不同的情况下可能会有不同的结构,例如在与其它蛋白相互作用时。据预测,人类蛋白质组中约有三分之一含有内在无序区,预测方法的进步将推动其研究。深度学习技术也可应用于其它类似问题,例如预测RNA分子的三维结构。
拥有更多的方法从序列中预测结构
通过一些公共资源(SWISS-MODEL、AlphaFold DB、Genome3D等),整个生命科学界可以免费获得来自PDB的实验确定的结构模型和通过各种方法产生的预测模型。3D-Beacons是一个用于注册和定位此类模型的门户网站,由一个联盟创建,该联盟开发了使用分布式架构(即没有一个网站托管所有数据)访问结构-模型数据的标准。这使得使用通用的、标准化的应用编程接口(API)以编程方式访问三维模型成为可能,进一步促进了这些模型的使用。
AlphaFold DB将很快为UniRef90集群的所有参考序列提供预测模型,其中每个序列与该集群的其他成员至少有90%的序列相同。这一发展强调了像CASP这样的社区驱动计划在推动研究工作和工具开发方面的重要性。其他这样的努力(例如,评估复合物结构预测方法的CAPRI)继续发挥着这样的作用,使计算结构生物学成为一个丰富的研究领域。AlphaFold的突破可能会导致这一领域的工作重心重新调整,从预测单个蛋白质结构转向目前仍然具有挑战性的问题,如预测多域蛋白质和复合物的结构,评估预测的准确性和质量指标。
结构生物信息学研究的机遇
以前所未有的规模提供预测的三维模型,为结构生物信息学家提供了一个名副其实的数据宝库,供其利用、分析和挖掘。
促进科学发现工具的发展
预计将开发新的方法来分析这些结构模型的规模,例如,将AlphaFold模型与已知的实验结构进行比较,寻找实验中尚未观察到的折叠,结构域的进化分析,检测活性部位的明显收敛进化的实例等。AlphaFold DB将促进对蛋白质结构的进化和结构与功能的关系的研究,为新功能的工程化和加速合成生物学应用提供线索。大规模的结构数据也将有助于研究预测序列变化和配体结合的影响的计算方法,以及分析蛋白质结构的构象状态和动态。
开发用于结构可视化和解释的新工具
随着AlphaFold模型的出现,他们的用户将需要接受培训,了解如何批判性地评估和使用这些结构,并理解使用预测模型进行解释的局限性。表达和可视化结构、它们的动态和相互作用的需要,以及让分子生物学家理解它们的可靠性和重要性,将是对结构生物信息学家的一个重大挑战,他们需要开发具有适当用户界面的软件工具。
完善功能预测的工具
结构生物信息学家已经投入时间开发工具,利用PDB中有限的实验确定的结构来注释基因组(如结构域分配),这可以帮助建议未知功能的蛋白质的功能分配。现在可以通过使用更大的训练集来提高这些工具的性能。
为更广泛的生命科学界提供机会
当一个高质量的蛋白质的三维模型出现时,以前的实验观察往往可以被解释,并根据结构模型提出新的可测试的假设,比如解释为什么一个突变是有害的,或者一个蛋白质如何与另一个蛋白质相互作用等等。
药物发现中,使用三维模型可以帮助理解为什么某种药物是抑制剂,或者为什么某些蛋白质是 "可药靶点 ",某些蛋白质不能作为靶点。这些模型将加速确定新的候选药物甚至是药物靶标的研究工作,预测出的三维模型开始帮助寻找可与药物结合的部位,启动结构测定,设计定向配体或片段筛选等。虚拟筛选技术也可以为老药的新用途提出建议,以便作用于以前没有结构的靶标。
展望未来
AlphaFold DB是一个巨大的蛋白质结构资源,它的出现也许可以与20年前人类基因组计划的完成相提并论,它使生物医学研究取得了实质性的进展,也为新的未预见的方向打开了大门。
这些模型将为与健康和疾病有关的基本过程提供新的见解和理解,并应用于生物技术、医学、农业、食品科学和生物工程。可能需要一二十年的时间才能正确评估这一发展的全部影响(科学、医学和经济)。与科学或技术的阶梯式变化一样,目前的一些科学活动将不得不面临改变,但也会产生大量新的和令人兴奋的机会、应用和衍生产品,其中许多是我们今天甚至无法预见的。结构生物学和一般的生物学将不再相同,我们迫不及待地想看到这些新发展的影响--这将是一个令人振奋的经历 。
人工智能作为科学工具
AlphaFold已经证明了人工智能在蛋白质结构预测方面的能力。它补充了现有的方法并揭示了新的见解,但并没有取代确定结构的实验方法。这项工作是一个可能的典范--很明显,人工智能将在更广泛的科学研究中找到许多这样的应用。
(转载自DrugAI)